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摘 ”要 : 认 知 建 模 近 年 来 在 科学 心理 学 获得 广泛 应 用 ， 而 模型 比较 是 认 知 建 模 中 关键 的 一 
环 : 研究 者 需要 通过 模型 比较 来 选择 出 最 优 模 型 ， 才 能 进行 后 续 的 假设 检验 或 潜 变 量 推断 。 
模型 比较 不 仪 要 考虑 模型 对 数据 的 拟 合 平衡 过 拟 合 与 欠 拟 合 )， 也 需要 考虑 参数 数据 和 数 
学 形式 的 复杂 度 。 然 而 ， 模 型 比较 指标 众多 ， 纷 繁复 杂 。 将 认 知 建 模 常用 的 模型 比较 的 指 
标 分 为 三 大 类 ， 并 介绍 了 其 计算 方法 及 优 劣 ， 包 括 拟 合 优 度 指标 (包括 均 方 误 差 、 决 定 系 


数 、ROC 曲线 等 )、 基 于 交叉 验证 的 指标 (包括 AIC. DIC 等 ) 和 基于 边际 似 然 的 指标 。 结 


合 正 交 Go /No-Go 范式 下 的 模拟 数据 和 真实 数据 ， 展 示 各 指标 在 R 语言 中 如 何 实 现 。 在 此 


基础 上 ， 探 讨 各 指标 的 适用 情境 ， 介 绍 模型 平均 等 模型 比较 的 新 思路 。 


关键 词 ， 认 知 建 模 ， 计 算 模 型 ， 模 型 选择 ， 模 型 比较 


Model comparison in cognitive modeling 


Abstract: Cognitive modeling has gained widespread application in psychological research. Model 
comparison plays a crucial role in cognitive modeling, as researchers need to select the best model 
for subsequent analysis or latent variable inference. Model comparison involves considering not 
only the fit of the models to the data (balancing overfitting and underfitting) but also the complexity 
of the parameter data and mathematical forms. This article categorizes and introduces three major 
classes of model comparison metrics commonly used in cognitive modeling, including: goodness- 
of-fit metrics (such as mean squared error, coefficient of determination, and ROC curves), cross- 
validation-based metrics (such as AIC, DIC), and marginal likelihood-based metrics. The 
computation methods and pros and cons of each metric are discussed, along with practical 
implementations in R using data from the orthogonal Go/No-Go paradigm. Based on this foundation, 
the article identifies the suitable contexts for each metric and discusses new approaches such as 
model averaging in model comparison. 


Key words: Cognitive modeling; Computational models; Model comparison; Model selection 
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最 近 的 二 十 年 来 ， 基 于 计算 模型 (Computati 


onal models) 对 行为 数据 进行 认 知 建 模 


(Cognitive modeling) 的 研究 越 来 越 多 受到 研究 者 的 关注 。 例 如 ， 在 感知 觉 决策 (Perceptual 


decision-making) 领 域 中 的 贝 叶 斯 感知 觉 模 型 (Bayesian perception model)(Kording & Wolpert, 


2006) 和 漂移 扩散 模型 (Drift diffusion model)(Forstmann et al., 2016; Ratcliff et al., 2016) 等 在 认 


知 神经 科学 得 到 了 广泛 的 应 用 。 类 似 的 ， 强 化 学 习 模 型 (Reinforcement learning model) 在 价 


值 决策 (Value-based decision-making) 研 究 中 日 益 成 为 主流 ， 其 通过 模型 估计 出 的 隐 变 量 “ 预 


期 误差 (Prediction error)” 可 以 有 效 地 预测 学 习 过 程 中 多 巴 胺 神经 元 (dopaminergic neuron) 的 活 


动 (Schultz et al., 1997; Steinberg et al., 2013)。 计 算 模 型 也 是 计算 精神 病 学 (Computational 


psychiatry) 这 一 新 兴 交 叉 领 域 的 基础 (Geng et al., 2022; Huys et al., 2016; Montague et al., 2012; 


区 健 新 , 2020)， 增 进 理解 精神 疾病 人 和 群 的 认 知 加 工 上 的 缺陷 以 提高 对 精神 疾病 诊断 和 分 类 


的 准确 度 ， 提 供 精 准 治 疗 (Pedersen et al., 2021). 


认 知 模型 的 步骤 大 致 包括 模拟 数据 (Simulatiom)、 参 数 估计 (Parameter estimation), iH! 


比较 (Model comparison) #ll ha 4 = HE Wi(Latent variab 


le inference)(Wilson & Collins, 2019) 等 步 


又。 具体 而 言 ， 研 究 者 根据 不 同 理论 提出 相应 的 计算 模型 进行 模拟 ， 并 设计 实验 收集 数据 ， 
使 用 各 个 计算 模型 拟 合 数据 ， 通 过 模型 比较 来 选 出 最 优 模型 ， 最 后 根据 最 优 模型 进一步 分 


析 数 据 ， 将 模型 的 中 的 隐 变 量 与 神经 数据 结合 进行 


模型 比较 是 认 知 建 模 里 至 关 重 要 的 一 环 ， 它 不 仅 在 认 知 建 模 中 使 用 ， 也 是 各 种 涉及 到 
计算 模型 的 场景 中 必 不 可 少 的 步 又 。 然 而 ， 心 理学 / 认 知 科学 等 领域 研究 者 对 于 模型 比较 的 


过 程 较为 陌生 ， 面 对 种 类 繁多 的 模型 比较 指标 时 ， 
对 模型 比较 的 诸多 方法 进行 系统 梳理 。 有 鉴于 此 ， 


常 感到 困惑 。 此 外 ， 当 前 文献 中 也 缺乏 
本 文 梳理 模型 比较 的 原则 和 各 个 方法 ， 


的 统计 模型 ， 例 如 分 层 线性 回归 、 结 构 方程 模型 等 


帮助 读者 理解 当前 模型 比较 背后 的 原理 和 适用 情境 ， 推 动 更 好 地 运用 认 知 建 模 。 虽 然 本 文 
的 重点 放 在 实验 心理 学 里 的 认 知 建 模 当 中 ， 但 是 介绍 的 指标 也 可 以 应 用 于 其 他 心理 学 常见 
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我 们 将 首先 介绍 模型 比较 的 基本 原则 ， 随 后 结合 案例 系统 地 介绍 常见 模型 比较 指标 的 


原理 和 优 缺 点 ， 最 后 ， 从 实际 应 的 角度 ， 总 结 各 


1 模型 比较 的 基本 原则 


个 指标 的 优 劣 和 使 用 注意 事项 。 


对 于 研究 者 而 言 ， 一 个 好 的 模型 必须 要 具备 如 下 两 点 特质 。 第 一 ， 它 能 够 很 好 地 解释 
或 者 拟 合 当前 样本 数据 的 模型 。 第 二 ， 模 型 要 具有 泛 化 能 力 ， 即 能 够 对 于 当前 数据 之 外 的 


数据 同样 提供 较 好 的 解释 《〈 即 预测 能 力 )。 如 果 茶 个 模型 无 法 准确 


地 解释 当前 样本 数据 ， 则 


可 认为 这 个 模型 是 欠 拟 合 的 (Underfitting)。 如 果 某 个 模型 能 够 非常 好 地 解释 当前 样本 数据 
但 无 法 解释 样本 外 的 数据 时 ， 则 认为 这 个 模型 过 拟 合 的 (Overfitting)(Friedman et al., 2001). 


研究 者 通常 使 ) 


模型 的 泛 化 能 


error)。 偏 差 衡 量 的 是 模型 预测 的 期 望 值 与 真实 数据 之 间 的 偏差 。 


味 着 模型 过 于 简单 ， 无 法 


在 不 同 训练 数据 集 上 的 预测 结果 的 变异 程度 。 


对 训练 数据 中 的 随机 噪声 也 进行 了 学 习 ， 从 而 导致 过 拟 合 。 


捉 到 数据 中 的 复杂 关系 ， 从 而 导致 从 拟 合 。 方 差 衡 和 
一 个 高 方差 的 模型 通常 意味 着 模型 
误差 项 是 指数 据 本 身 所 包含 的 


泛 化 误差 (Generalization error)， 即 模型 预测 和 真实 数据 的 差异 来 衡量 
。 泛 化 误差 可 以 被 分 为 方差 (Variance)、 偏 差 (Bias) 和 误差 项 (Irreducible 


一 个 高 偏差 的 模型 通常 意 
量 的 是 模型 
过 于 复杂 ， 


不 可 减少 的 噪声 和 不 确定 性 。 这 部 分 
差 造成 的 ， 任 何 模型 都 无 法 预测 或 消除 这 
方差 则 会 增 大 ， 这 被 称 作 偏差 -方差 权衡 (Bias-variance 
而 方差 大 的 模型 则 过 拟 合 (Friedman et al., 2001)。 选 择 模 
型 的 泛 化 误差 最 小 的 过 程 。 


度 的 增 大 ， 模 型 的 偏差 会 逐 


trade-off)。 偏 差 大 的 模型 欠 拟 合 ， 
型 是 一 个 权衡 模型 的 偏差 和 方差 ， 从 而 使 


Error 


误差 是 由 


文部 分 误差 。 因 此 ， 如 图 


于 数据 本 身 的 复杂 性 或 者 是 测量 


BT VK) 


IFRA 


— Bias 
——- Variance 
——- otal error 


Model complexity 


图 1. 偏差 -方差 权衡 示意 图 。 


随 着 模型 复杂 度 (Model complexity) 的 增加 ， 偏 差 逐渐 减 小 ， 


总 的 误差 (Total error) 有 一 个 最 小 值 。 


虽然 模型 的 复杂 度 对 其 泛 化 能 力 有 着 重要 作用 ， 但 


and Pitt (1997) 总 结 三 种 影响 


过 程 中 的 误 
1 所 示 ， 随 着 模型 的 复杂 


方差 逐渐 增 大 。 耐 


其 也 受到 诸多 因素 的 影响 。Myung 


和 模型 复杂 度 的 因素 。 


的 参数 越 多 复杂 度 越 高 。 多 


第 二 是 模型 的 数学 形式 。 


杂 。 第 三 是 模型 的 参数 空 
味 着 模型 更 复杂 。 


Es 间 范 围 。 更 大 的 参数 空 


第 一 是 模型 的 参数 数量 。 
例如 ， 非 线性 
s 间 范围 说 明 模 型 拥有 更 多 的 自由 度 ， 也 意 


般 情 况 下 模型 
的 模型 要 比 线性 模型 更 复 
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根据 模型 比较 指标 关注 点 和 原理 的 差异 可 将 它们 分 
这 一 类 指标 并 没有 考虑 
第 二 类 是 交叉 验证 (Cross validatiom) 以 及 近似 交叉 验证 的 指标 ， 这 类 指 


(Goodness of fit), 
本 数据 的 拟 合 程度 。 


类 。 


) 为 三 


模型 的 复杂 度 ， 只 是 


& a 


第 一 类 为 模型 拟 合 优 度 


F^— 


地 地 衡量 模型 对 于 当前 样 


标 关注 于 模型 的 泛 化 能 力 (Generalization ability)， 即 基于 当前 样本 数据 拟 合 后 的 模型 对 于 样 


本 外 数据 预测 准 古 


P(y|IM)， 其 中 y 表 示 观 测 数据 ，M 表 示 模 型 。 


的 “真实 模型 ”。 


角度 (Out of sample prediction accuracy)。 第 三 类 是 基于 边际 似 然 的 指标 1 
边际 似 然 着 重 于 选择 出 候选 模型 里 可 能 存在 
后 二 者 都 具有 在 复杂 度 和 拟 合 优 度 之 间 进 行 权 衡 的 特质 。 


不 同 的 模型 比较 


指标 各 有 其 优 缺 点 ， 不 存在 某 一 个 指标 全 面 优 于 他 者 。 因 此 ， 研 究 者 需要 根据 实际 情况 选 


择 合适 的 指标 。 


以 下 将 通过 


值得 注意 的 是 ， 拟 


特定 的 拟 合 方法 才能 使 用 。 


个 数据 作为 示例 ， 
合 认 知 模型 的 方法 也 对 模型 指标 


图 2 介绍 了 不 同 拟 合 方法 对 应 的 模型 比较 指标 。 拟 合 认 知 模型 


DANE 


这 三 大 类 指标 。 


的 选择 有 着 影响 ， 


些 指标 仅 限 于 


的 方法 有 点 估计 的 极 大 似 然 法 (Maximum likelihood estimation, MLE) 和 最 大 化 后 验 概率 法 
(Maximum a posterior estimation, MAP)， 以 及 不 基于 点 估计 而 是 估计 整个 后 验 分 布 的 贝 叶 斯 


参数 估计 (Bayesian estimation). JUIF 


特别 有 利 。 贝 叶 斯 参数 估计 里 的 


构建 层级 贝 叶 


的 参数 均 是 从 组 水 平 参数 所 形成 的 分 布 中 
因此 ， 单 个 被 试 的 参数 值 会 通过 
局 移 ， 从 而 减少 了 被 试 中 极端 数据 对 


试 参数 的 约束 ， 


啊 ， 向 组 水 平 参数 均值 方向 人 


斯 模型 (Hieraricial Bayesian Model) 引 入 了 组 水 习 


斯 参数 估计 相 较 于 其 他 方法 
贝 叶 斯 估计 能 够 提供 参数 的 后 验 分 布 ， 这 不 仅 便 于 进行 后 续 分 书 
先 验 分 布 能 起 到 正则 化 的 作 
2006)。 此 外 ， 贝 叶 斯 方法 在 处 理 多 个 被 试 数据 时 表现 出 其 独 4 


H 


具有 明显 的 优势 。 
厅 ， 而 且 对 于 构建 分 层 模型 


首先 ， 


组 水 平 的 参数 间 


2017; Gelman, Carlin, et al., 2013). 


Eu 


统计 中 ， 边 际 似 然 (Marginal likelihood) 也 称 为 称 模型 证 
3 


j， 从 而 减少 模型 的 (Bishop, 
竺 优势 。 贝 叶 斯 估计 十 分 利于 
(Group level) 先 验 ， 不 同 被 试 
由 取 的 ， 而 组 水 平 参数 的 估计 本 身 也 受到 单个 被 
接受 到 其 他 被 试 数据 的 影 


参数 值 的 影响 (Ahn et al., 


据 (Model evidence)。 
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平均 平方 误差 
AIC 


对 数 似 然 函数 
ROC 曲 线 
后 验 预 测 检 查 


| 拟 合 优 度 指 标 


PSIS-Loo-CV 


BIC 


近似 计算 方法 


Savage-Dickey density ratio 


重要 性 采样 


图 2. 认 知 建 模 里 三 种 常见 的 模型 比较 指标 ， 分 别 包括 拟 合 优 度 指 标 、 基 于 交叉 验证 的 指标 和 基于 边际 似 然 
的 指标 。 


2 ” 拟 合 优 度 指 标 


模型 的 拟 合 优 度 (Goodness of fb 主要 用 于 衡量 模型 在 实验 数据 上 的 预测 程度 或 拟 合 程 
度 。 虽 然 拟 合 优 度 指标 疫 有 考虑 到 由 于 模型 的 复杂 度 增 大 而 带 来 的 过 拟 合 的 影响 ， 但 它 
认 知 建 模 中 的 作用 也 不 可 忽视 。 首先 ， 拟 合 优 度 指标 可 以 用 于 探究 模型 的 绝对 性 能 ， 其 次 ， 
拟 合 优 度 的 指标 可 以 在 模型 的 复杂 度 相 差 不 大 以 及 存在 嵌 套 模型 的 情况 下 被 用 于 比较 各 个 
模型 。 在 认 知 建 模 领域 里 常用 的 拟 合 优 度 指 标 包 括 如 下 : 均 方 误差 (Mean squared error), v 


定 系 数 (Coefficient of determination, r?/pseudo 7?)、 对 数 似 然 函 数 (Log likelihood function), 


B 


nm 


接收 者 操作 特征 曲线 (Receiver operator characteristic, ROC)AI Ja 2$ TW M y Æ (Posterior 


predictive check). # 1 总 结 了 各 个 指标 的 优 缺 点 。 
K 1. 各 拟 合 度 指标 的 优 缺 点 以 及 适用 的 参数 估计 范围 


适用 的 参数 估计 方法 ”优点 缺点 
均 方 误差 极 大 似 然 法 、 最 小 二 直观 简单 ， 易 于 计算 和 不 适用 于 分 类 问题 ， 未 


(MSE) 乘法 解释 考虑 模型 复杂 度 对 过 拟 
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107 


决定 系数 (r?) ” 极 大 似 然 法 、 最 小 二 ”衡量 模型 变量 变异 性 占 ”对 模型 的 复杂 性 敏感 ， 
乘法 比 ， 提 供 模型 拟 合 的 可 无 法 比较 特征 数目 不 同 
解释 性 的 模型 


对 数 似 然 函 数 AKURE, RAR 反映 模型 预测 与 实际 数 不 适用 于 非 概率 、 非 参 
验 概率 法 ， 贝 叶 斯 参 ” 据 的 匹配 程度 ， 可 用 于 数 模 型 ， 对 异常 值 敏感 

数 估计 模型 比较 和 参数 估计 ; 

MSE 和 7? 是 残 差 为 正 态 

分 布 时 对 数 似 然 函数 的 


特例 
ROC 曲线 极 大 似 然 法 ， 最 大 后 用 于 评估 模型 对 实际 数 不 适用 于 数据 为 多 选项 
验 概率 法 ， 贝 叶 斯 参 ” 据 的 预测 能 力 。 的 情况 ; 对 于 不 平衡 数 
数 估 计 据 ， 结 果 不 够 准确 
后 验 预 测 检查 。 贝 叶 斯 参数 估计 考虑 参数 不 确定 性 和 模 需要 领域 专业 知识 对 先 
型 复杂 性 ; 可 检查 对 新 验 和 后 验 分 布 进行 假 
数据 样本 的 预测 能 设 ; 计算 复杂 度 较 高 


21 均 方 误差 
均 方 误差 ， 简 称 为 MSE(Mean squared error)， 义 称 均 方 偏 差 (Mean squared deviation, 


MSD)， 是 评估 一 般 线性 回归 的 常用 指标 ， 其 计算 公式 为 : 


1X . 
MSE = 12,0! - 91)? (2) 
其 中 ,六 是 样本 的 数据 点 ， 久 是 模型 的 预测 值 。MSE 通常 应 用 于 建 模 数据 是 连续 变量 


H 


的 回归 预测 问题 中 。MSE 并 不 适用 于 如 本 文案 例 一 样 的 分 类 问题 。 


对 MSE 开 根 号 可 得 到 均 方 根 误差 (Root mean square deviation, RMSD); 给 MSE 乘 以 数 
据点 数量 ， 可 得 到 残 差 平方 和 (Residual sum of squares, RSS)。 当 模型 使 用 高 斯 分 布 时 ，RSS 
可 用 于 嵌 套 模型 的 检验 。 锯 套 模型 指 的 是 一 个 模型 相对 于 另 一 个 模型 具有 更 少 的 参数 或 
者 某 些 参数 被 限制 〈 例 如 固定 为 特定 值 )。 在 典 套 模型 中 ， 一 个 模型 〈 简 单 模型 ) 是 另 一 个 
模型 〈 更 为 完整 模型 ) 的 子 集 ， 它 在 更 完整 模型 的 基础 上 降低 了 复杂 性 。 

五 值 公式 为 : 


RSSReduced-RSSpull 
= Ap 
F= RSSFull (3) 


dF full 


上 式 中 RSSkequceq 和 RSSpyn 分 别 为 简单 模型 和 完整 模型 的 RSS，Ap 为 二 者 的 自由 参数 
之 差 ，dFpn 为 完整 模型 的 自由 度 (Hair et al., 2010)。 除 此 之 外 ， 高 斯 分 布 的 RSS 还 可 以 在 


计算 AIC 和 BIC 时 蔡 代 对 数 似 然 函数 (Friedman et al., 2001; Lebreton et al., 2019)。 更 多 关于 
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AIC # BIC 的 内 容 请 分 别 参考 下 文 3.1 和 4.1 节 。 
2.2 决定 系数 

决定 系数 7? 常 被 用 于 衡量 线性 回归 模型 的 拟 合 优 度 ，r? 的 值 介 于 0 到 1 之 间 ， 反 映 了 
因 变 量 的 变异 能 被 自 变 量 所 解释 的 占 比 。7? 越 接近 于 1， 模 型 对 数据 的 拟 合 效 果 越 好 。 肯 
计算 公式 为 : 


r2=1-— (4) 


TSS(Total sum of squares) 为 总 平方 科 ，RSS(Residual sum of squares) 为 残 差 平方 和 ， 他 
们 的 计算 公式 为 : 


TSS = Xy; - y (5) 
RSS = X i- 5? (6) 
与 MSE 一 样 ， 决 定 系数 r? 常 应 用 于 建 模 变量 为 连续 变量 的 回归 预测 问题 ， 并 不 适用 于 
本 文案 例 中 建 模 数据 为 离散 分 布 的 分 类 问题 。 
为 了 让 r? 也 适用 于 离散 分 布 的 情况 ， 研 究 者 提出 使 用 pseudo r?. pseudo 7r? 有 多 种 计 
算 公 式 ， 本 文 以 McFadden (1984) 提 出 的 一 种 为 例 进行 介绍 ， 因 为 它 较为 符合 Kvalseth (1985) 
提出 的 八 种 决定 系数 应 有 的 性 质 (Menard, 2000). 


其 公式 为 : 


E 25 LLFruu model 
x LL Fruit model 


È LL Fruit moder 73 9678 Ht ZUUR PB BZA | 2LLFwurmoaet 为 空 模型 的 对 数 似 然 函数 
之 和 (Daw, 2011; McFadden, 1984)。 空 模型 mull model) 认 为 实验 刺激 对 观测 数据 没有 任何 的 
影响 , 观测 数据 是 均匀 分 布 的 。 此 处 空 模型 指 的 是 参数 为 (1/ 选 项 数量 ) 的 二 项 式 分 布 或 者 多 


(7) 


2 zm 
pseudo TMcFadden — 


项 式 分 布 模型 。 例 如 ， 在 本 文 的 案例 里 ， 可 能 的 选项 有 两 个 ， 因此 二 项 式 分 布 的 参数 为 >， 


即 观察 到 两 个 选项 的 可 能 性 相同 ， 而 空 模型 的 似 然 函数 为 试 次 数量 乘 上 /!og 0.5。 


2.3 WAU aR 


似 然 函数 是 在 给 定 观 测 数据 的 情况 下 ， 各 模型 参数 产生 该 观测 数据 的 概率 。 似 然 函 数 
求 对 数 即 得 到 对 数 似 然 函 数 ， 可 以 用 来 评估 模型 参数 与 实际 数据 拟 合 度 ， 通 常 在 极 大 似 然 
法 估计 (Maximal likelihood estimation, MLE) 里 使 用 。 似 然 函 数 的 公式 为 : 

logL(0|y) = Log p(y|0) (8) 

不 同 任务 的 数据 分 布 不 同 ， 因 此 对 数 似 然 函数 的 形式 也 有 所 区 别 。 对 于 选项 数据 ， 对 
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数 似 然 函 数 通 常 基 


对 数 似 然 函数 则 一 


AEF 


ry 


i 


在 认 知 建 模 的 模型 比较 中 ， 对 数 似 然 函数 通常 


有 两 种 用 途 。 


Pepe 
vH 


于 伯 努 利 分 布 或 多 项 式 分 布 来 构建 ， 而 对 于 反应 时 或 肌 电 等 连续 数据 ， 


斯 分 布 来 构建 (Ballard et al., 2019; Ikink et al., 2019; Li et al., 2011). 


— 


j 平 均 对 数 似 然 


DE 使 


函数 来 探究 模型 绝对 的 表现 (Absolute performance)。 本 文 的 示例 为 二 选项 任务 (Binary choice 
task)， 个 体 随机 选择 的 概率 为 50%， 其 对 数 为 -0.693。 因 此 当 平 均 对 数 似 然 函 数 大 于 -0.693 
优 于 随机 水 平 (Chance level). 


时 ， 模 型 的 表现 要 


表现 差异 是 否 显 著 。 似 然 比 检验 的 渐 近 分 布 为 卡 方 分 布 ， 划 


第 二 ， 对 数 似 然 可 用 于 计算 似 然 比 检验 (Likelihood-ratio tes0， 来 推断 嵌 套 模型 之 间 的 


参数 数量 之 差 (Casella & Berger, 2002; Wilks, 1938)。 


LRT = —2 x (log Lreducea — log Lrun) 


似 然 比 检验 的 公式 为 : 
其 


和 模型 二 。 这 两 个 


模型 的 自由 参数 数量 之 差 为 2， 再 乘 上 被 试 数量 61， 因 
为 121 的 卡 方 分 布 来 进行 似 然 比 检验 。 模 型 一 和 模 2 


Lpun 是 完整 模型 的 似 然 函 数 ，LReaqucea 则 是 固定 茶 些 参数 的 模型 的 似 然 函 数 。 
体 计算 时 ， 我 们 需要 将 所 有 被 试 的 全 部 试 次 的 似 然 函数 相 加 ， 以 此 计算 LRT， 并 通过 检查 
卡 方 分 布 判断 模型 差异 是 否 显著 。 在 本 文 的 案例 中 ， 我 们 使 


自由 度 正比 于 两 个 模型 中 


自由 


(9) 
H 


一 


j 了 似 然 比 检验 对 比 了 模型 一 


此 ， 可 用 自由 度 


0.001， 说 明 二 者 的 拟 合 差异 显著 。 


种 用 于 评估 二 分 类 模型 的 方法 ， 在 信号 检测 论 有 者 


2.4 ROC 曲线 
ROC 曲线 是 
线 根 据 不 同 的 分 类 阔 值 进行 绘制 ， 反 映 了 在 不 同 
55 
为 假 阳性 率 ， 纵 坐标 为 击 中 率 。 
在 ROC 曲线 里 ，TPR 是 指正 确 分 类 的 了 


分 类 为 正 例 的 负 例 数 与 所 有 实际 负 例 数 之 比 。 这 上 
的 信号 ， 而 负 例 则 为 错误 反应 ， 信 号 检测 论 中 的 噪音 。 


反应 阀 值 ， 计 算 不 


n 


IR] sc NL BREL BY BLEH SRI 


ROC 曲线 


ROC H 


uy 


展示 了 在 不 同 反 应 阔 值 下 模型 的 性 
线 下 的 面积 。AUC 的 值 介 于 0 和 1 之 间 ， 表 示 分 类 器 在 区 分 正 例 和 负 例 方面 的 能 


时 二 的 似 然 比 检验 的 p 值 为 3.35e 一 < 


广泛 的 应 用 。ROC H 


有 反应 阐 值 下 击 中 率 (True Positive Rate, TPR) 


性 率 (False Positive Rate，FPR) 之 间 的 关系 (Bishop, 2006)。 在 ROC 


昌 线 里 ， 其 横 坐 标 


soz 
PASS 
o 


为 了 绘制 ROC 


。 而 AUC(Aera under curve) 则 衡量 


E 例 数 与 所 有 实际 正 例 数 之 比 。FPR 则 是 指 错误 


的 正 例 即 正确 


的 反应 ， 也 即 信号 检测 论 
昌 线 ， 我 们 需要 变化 


了 


Je AUC 为 0.5 时 模型 的 预测 是 随机 的 。 而 AUC 的 值 越 接近 1， 表 示 分 类 器 性 能 越 好 。 一 
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般 情 况 下 ， 当 AUC 大 于 0.8 时 ， 我 们 可 以 认为 模型 的 性 能 表 
线 在 正 负 样本 大 小 均衡 时 表现 良好 ， 但 是 当 正 负 样 本 差异 较 大 时 ， 精 确 


线 (Precision-recall curve, PRC) 是 更 适合 的 指标 (Davis & Goadrich, 2006). 


ROC 上 


zi 


2.5 后 验 预测 检查 


后 验 预测 检查 


(posterior predictive check) 通常 并 不 属于 模型 


法 也 可 以 
中 的 一 


后 验 预测 检验 属于 模型 验证 


力 (Palminteri et al., 2017; Steingroever et al., 2014; Vandekerckhove et al., 2011). # 


Prey ly, M) = f P(vrep|@,M)p(Oly, M) de 


其 


ZN 


Zhang et al., 2020). 


在 实际 应 用 中 ， 后 验 预测 检查 的 流程 如 下 : 在 拟 合 
的 参数 代入 到 模型 之 中 ， 生 成 模拟 数据 。 
来 比较 模型 模拟 的 数据 和 真实 数据 的 差异 ， 


Schoot et al., 2021)。 


后 验 预测 检查 能 避免 只 


M 是 模型 ，y 是 样本 数据 ， 攻 ep 是 模型 重 现 的 样 


现 较 佳 。 


的 方法 (Model validatiom)， 检 查 了 模型 对 样本 数据 的 重 蕊 


使 


模型 比较 指标 时 可 能 的 问题 。 例 如 ，Palminteri et al. (2017) 


个 模拟 和 
的 指标 ] 
可 以 。 


通过 


因此 ， 除 过 


m 


网 优 于 模型 B， 但 是 模型 


的 参数 模拟 数据 ， 再 


究 证 明 ， 假 设 有 两 个 模型 A 与 B， 即 使 在 多 数 情 
LA 却 有 可 能 无 法 模拟 出 数据 的 总 体 变化 趋势 ， 而 BRA 
十 传统 常见 的 拟 合 优 度 指标 之 外 ， 模 拟 数据 对 评 


检查 并 没有 得 到 广泛 应 
来 评估 模型 。 


(Zhang et al., 2020). 


管 后 验 预 测 检查 是 贝 叶 斯 统计 : 
对 于 非 贝 叶 斯 参数 估计 的 模型 ， 我 们 只 能 
将 其 与 真实 数据 进行 对 比 。 虽 然 在 过 去 的 计算 模型 
， 但 在 当今 越 来 越 多 的 而 


合 完 模型 并 得 至 
然后 通过 绘图 或 者 计算 一 
以 评估 模型 的 拟 合 


青 况 下 ， 模 型 A 的 模型 选择 


4 拟 合 优 度 ， 但 考虑 到 该 方 
于 衡量 模型 对 于 原始 数据 的 拟 合 程 度 ， 因 此 本 文 将 其 视 为 模型 拟 合 优 度 的 指标 


公式 为 : 


(10) 


本 数据 (Gelman, Carlin, et al., 2013; 


到 拟 合 参数 后 ， 将 拟 合 
些 统计 指标 (如 MSE 等 ) 


效果 和 预测 能 


力 (van de 


型 却 


估 模 型 来 说 是 至 关 重 要 的 。 


的 概念 ， 
获得 参数 的 点 估 


ip, 但 


FH, WRA 


3 ”交叉 验证 类 的 指标 


交叉 验证 是 机 器 学 习 领 


可 以 预见 ， 在 未 来 的 看 


页 域 中 月 


VL 


， 后 验 预测 检查 有 可 


日 于 检验 模型 对 于 样本 外 数据 的 
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但 并 不 代表 它 仅 适 


能 成 为 必 不 可 2 


IF NAHB BUTT o 
是 我 们 仍 可 以 使 用 点 估计 
I 研究 中 ， 后 验 预测 


员 选 择 使 用 后 验 预 测 检 查 


少 的 步骤 之 一 


泛 化 能 力 的 基本 方法 。 然 
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221 


而 ， 在 心理 学 领域 


， 直 到 最 近 才 开 始 避 


2023)。 交 叉 验 证 的 流程 包括 ， 首 先 将 数据 集 分 为 训练 集 
set); 然后 在 训练 集 上 拟 合 不 同 的 模型 


利用 计算 机 的 多 


的 拟 合 优 度 指标 均 用 了 


Hi 


40 


上 的 指标 相 比 ， 


最 后 在 验证 集 上 对 比 不 同 模型 的 预测 准确 度 ， 从 而 
选择 出 最 优 模 型 (Friedman et al., 2001; Geisser & Eddy, 1979)。 值 得 注意 的 一 点 是 ， 
在 验证 集 上 验证 模型 性 能 。 
交叉 验证 主要 有 三 个 优点 。 第 一 ， 与 许多 建立 在 假设 和 推 
力 蔡 代 复 杂 的 推导 ， 使 得 它 极 为 简洁 和 直观 。 第 二 ， 交 叉 验 证 在 权衡 模型 


前 文 介绍 


交叉 验证 


A ALIX — 77 i (Daniel et al., 2020; Verstynen & Kording, 


Training set) 和 验证 集 (Validation 
8 


拟 合 优 度 和 复杂 度 时 自然 地 将 三 种 模型 复杂 度 因素 (参数 数量 、 参 数 空间 范围 和 数学 形式 ) 
考虑 在 内 ， 而 这 是 许多 指标 所 不 具备 的 。 第 三 ， 交 叉 验 证 不 仅 可 以 作为 模型 选择 的 相对 指 


bs, IBA 


可 结合 前 文 提 到 的 MSE, AUC 等 统计 指 


AS 


H 

^ 
n 
rm 


标 ， 评 估 模 型 数据 分 布 的 拟 合 能 力 。 
的 交叉 验证 方法 包括 K 折 交 又 验 证 (K-fold cross-validation) 和 留 一 法 交叉 验证 


(Leave-one-out cross-validation) 等 。K 折 交 叉 验 证 把 数据 分 成 KK 分， 其 中 K-1l 份 数据 作为 训 


UE. R 


3 
c 


进行 N 次 评估 才能 完 


余 一 份 数据 作 验 证 集 。 留 一 法 交叉 验 说 
每 次 取出 一 个 样本 作为 测试 集 ， 剩 余 样本 作为 训练 集 。 
1 个 数据 样本 将 作为 训练 集 ， 而 剩 下 的 一 个 样本 是 验证 集 ， 即 上 = N。 留 一 法 交叉 验证 需要 
此 它 的 计算 量 较 大 。 当 样本 数据 噪音 较 
相同 的 表现 ， 而 当权 


成 对 所 有 数据 样本 的 预测 ， 因 
做 到 至 少 与 任意 K 值 的 K 折 交 叉 验 订 


少 的 情况 下 ， 留 一 法 能 


音 较 多 的 情况 下 ， 留 


尽管 交叉 验证 是 
认 知 建 模 领域 里 的 使 月 


MR 


3.1 AIC 


HH 


法 的 泛 化 误差 则 较 大 (Zhang & Yang, 2015). 
器 学 习 领 域 最 为 常用 的 验证 模型 泛 化 能 力 的 手段 ， 但 是 交叉 验证 在 


不 广泛 ， 主 要 原因 在 于 留 一 法 交叉 验 订 
折 交 又 验证 则 面临 着 把 数据 分 为 几 份 的 问题 。 考 虑 到 数据 样本 量 的 限 4 


认 知 建 模 的 研究 者 往往 使 用 信息 准则 的 近似 的 指标 去 代替 交叉 验证 的 指标 。 本 文 在 这 里 介 


FE 则 是 折 交 叉 验 证 的 特例 ， 它 从 数据 集中 


例如， 在 N 个 样本 点 的 数据 集 ，N- 


本 数据 品 


Hits 


量 往往 较 大 ， 而 K 


出 以 及 计算 复杂 1 


四 类 常见 的 指标 ， 分 别 为 AIC. DIC. WAIC 和 PSIS-Loo-CV。 


生 ， 


AIC(Akaike information criterion) 是 最 早 的 模型 比较 指标 之 一 (Akaike, 1974)， 有 着 详实 


的 理论 基础 。 首 先 ，AIC 是 模型 所 预测 的 数据 分 布 与 真实 数据 分 布 的 KL 散 度 (Kullback- 


Leibler divergence) Mii. H 


predictive accuracy) 和 Loo-CV(Stone, 1977). 


AIC fit f 


公式 为 : 


CYR, AIC XP ub BH tq A 


f 本 外 预测 能 力 (Out-ofsample 
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AIC = -2xlogL(0|y) + 2x K (11) 
其 中 ，logL(6|y) 是 使 用 极 大 似 然 法 估计 或 者 最 大 化 后 验 概率 估计 求 得 的 最 优 参 数 6 的 
对 数 似 然 函 数值 , 可 以 参考 0 节 ; K 为 参数 数量 ， 用 于 对 模型 复杂 度 的 惩罚 。AIC 的 值 越 小 ， 
表明 模型 的 拟 合 效果 越 好 。 
AIC 在 较 小 的 样本 数据 中 可 能 会 表现 不 佳 (Sugiura, 1978)， 有 研究 者 提出 基于 小 样本 偏 


差 修 正 的 AICc(Hurvich & Tsai, 1989)。AICc 的 计算 公式 为 : 


au 


AlG; = -2 x log L(6ly) + 2x K x (1L —) = Arc + 50909 (12) 


其 中 n 表 示 为 试 次 的 数量 。AICc 在 样本 量 较 大 时 会 趋 近 AIC。 当 样本 量 较 小 时 ，AICc 
对 复杂 的 模型 的 惩罚 大 于 AIC。 在 认 知 建 模 领域 ， 由 于 行为 实验 中 被 试 完成 的 试 次 数量 有 
限 ，AICc 往往 是 比 AIC 更 合适 的 指标 (Li et al., 2020; Li & Ma, 2021; Suzuki et al., 2012). 

对 AIC 的 差异 在 多 大 时 才能 证 明 一 个 模型 优 于 他 者 的 问题 ，Burmham and Anderson 
(2004) 的 建议 是 ， 当 两 个 模型 的 AIC 之 差 绝 对 值 小 于 2 时 ， 两 个 模型 几 无 差异 ;该 值 在 4 到 
7 之 间 时 ， 存 在 较 少 的 证 据 支持 AIC 值 更 小 的 模型 ， 该 值 大 于 10 时 ， 则 有 充足 的 证 据 认 为 
AIC 小 的 模型 是 最 优 模型 。 此 外 ，AIC 渐 进 于 卡 方 分 布 (Anderson & Burnham, 2004), KE, 
研究 者 可 以 使 用 卡 方 检验 对 比 不 同 模型 的 AIC. 值 是 否 存在 显著 差异 。 

AIC 的 另 一 个 用 途 在 于 它 可 以 转换 成 模型 概率 ， 得 到 所 谓 的 赤 池 权重 (Akaike 
weight)(Wagenmakers & Farrell, 2004). 

假设 共有 M 个 模型 ， 第 j 个 模型 的 赤 池 权重 计算 公式 如 下 : 


AAIC; = AIC; — minAIC (13) 


—0.5 x AAICy, 
Was ce E (14) 
Dit, exp(—0.5 x AAICy, ) 


上 述 两 个 公式 中 第 一 个 代表 了 各 模型 与 最 优 模型 之 间 的 差异 ， 最 优 差异 则 会 通过 公式 
(14) 映 射 到 0-1 区 间 之 中 ， 代 表 不 同 模 型 的 权重 。 公 式 (14) 被 称 作 softmax 公式 ， 公 式 中 A47C 


乘 上 -0.5 则 是 为 了 保证 AIC 更 小 的 模型 占据 的 权重 更 高 。Anderson and Burnham (2004) 认为 


赤 池 权重 是 对 下 文 介绍 的 后 验 模型 概率 (Posterior model probability, PMP) pCM|y) 的 近似 ， 代 
表 在 给 定 样 本 数据 的 情况 下 ， 模 型 被 选择 成 为 候选 模型 中 最 优 模型 的 概率 。 

AIC 在 认 知 建 模 中 的 应 用 格外 广泛 ， 但 是 它 也 具有 一 些 缺 陷 。 第 一 ， 作 为 对 样本 外 预 
测 能 力 的 近似 ，AIC 的 精确 度 不 如 后 续 将 介绍 的 WAIC 和 PSIS-Loo-CYV 等 指标 。 其 次 ，AIC 


在 推导 过 程 中 使 用 插入 预测 (Plug in prediction) 概 率 p(yos|6) 评 估 模 型 在 样本 内 的 预测 准确 
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度 ， 而 不 是 对 完整 的 预测 分 布 进 行 评 佑 ， 导 致 对 样本 外 数据 的 预测 有 一 定 的 偏差 。 最 后 ， 


AIC 衡量 模型 复杂 度 时 只 考虑 了 参数 数量 


杂 度 的 男 两 个 因素 。 


3.2 DIC 


DIC(Deviance information criterion) 是 最 常见 的 贝 叶 斯 统计 的 模型 选择 指标 之 一 ， 其 理 


a, 忽略 了 Myung and Pitt (1997) 总 结 的 影响 模型 复 


论 基于 贝 叶 斯 模型 样本 外 预测 能 力 (Expected log pointwise predictive density for a new dataset, 


elpd)。 DIC 是 对 elpd 的 近似 ， 
似 估 计 通 常 有 两 种 实现 途径 ， 


因此 DIC 仅 适 


于 贝 叶 斯 参数 估计 模型 中 。 贝 叶 斯 参数 的 近 


一 是 以 马尔 科 夫 链 蒙 特 卡 洛 采 样 (Markov Chain Monte Carlo, 


MCMC) 为 主 的 采样 近似 方法 ， 另 一 种 则 是 如 变 分 推断 (Variational Inference, VD 通过 近似 后 
验 分 布 求解 的 近似 方法 。 采 样 近似 方法 的 计算 量 更 大 、 速 度 更 慢 ， 但 通常 得 到 的 结果 也 更 
为 准确 。 而 DIC 的 计算 需要 MCMC 得 到 的 后 验 样 本 的 参与 。 

DIC 通常 被 认为 是 贝 叶 斯 参数 估计 版 的 AIC， 但 是 与 AIC 不 同 的 是 DIC 仅 适 用 于 基于 


` 


MCMC(Markov chain Monte Carlo) 采 样 估计 的 模型 (Spiegelhalter et al., 2002). 


DIC 的 计算 公式 为 DIC = —2D(0) +2 x pp- 


是 真实 数据 与 模型 预测 分 布 之 间 的 1 


其 中 s 代 表 了 MCMC 的 样本 ， 


-2 乘 上 参数 后 验 分 布 上 的 均值 的 偏差 ， 


数 (effective number of parameters), 


其 中 6 为 参数 后 验 分 布 的 均值 ， 而 D(9) 则 


局 差 〈Deviance )， 用 以 衡量 模型 的 性 能 。 偏 差 的 公式 为 : 


D(6,) = log L(y|0,) (15) 


因此 6. 是 MCMC 样本 的 参数 值 。DIC 的 公式 的 第 一 项 是 
代表 了 模型 拟 合 的 程度 ， 第 二 项 pp 被 称 作 为 有 效 参 
是 模型 拟 合 的 复杂 度 的 惩罚 项 ， 计 算 公 式 为 : 


pp = D(8) - D(8) (16) 


S 
_ 1 
D(8) = -2 x BO (17) 


除 上 述 公式 外 ，Gelman, Carlin, et al. (2013) 也 提出 了 用 偏差 的 方差 当 作 有 效 参数 的 方法 ， 


其 公式 为 : 


Pp = 0.5 x Var(log L(y|0)) (19) 


与 AIC 一 样 ，DIC 值 越 小 的 模型 拟 合 的 越 好 。 当 我 们 把 DIC 除 以 -2， 即 可 得 到 DIC 对 


elpd 的 近似 。 与 AIC 不 同 的 是 ，DIC H 


的 pp 不 仅 考 虑 了 模型 参数 数量 ， 同 时 还 对 Myungand 


Pitt (1997) 总 结 的 其 他 模型 复杂 度 


的 因素 敏感 。 因 为 DIC 的 这 一 特性 ， 它 时 常 能 带 给 研究 者 


更 多 的 理解 。 例 如 ，LBA(Linear ballistic accumulator) 模 型 与 DDM(Drift-diffussion model) 同 
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属于 对 反应 时 建 模 的 序列 抽样 模型 (Brown & Heathcote, 2008). LBA 通常 被 认为 是 DDM 的 
简化 版 ， 为 验证 这 二 者 谁 更 复杂 ，Donkin 等 人 使 用 DIC 对 二 者 进行 了 对 比 (Donkin et al., 
2009)。 结 果 发 现 ， 尽 管 LBA 模型 的 参数 数量 比 漂移 扩散 模型 更 少 ， 但 是 LBA 模型 DIC 指 
标 中 pp 更 大 ， 这 表明 LBA 模型 可 能 并 没有 简化 DDM. 

与 AIC 相 较 ，DIC 对 样本 外 预测 能 力 的 近似 更 精确 。 但 DIC 的 问题 有 如 下 几 点 ， 第 一 
DIC 的 表现 受 参数 后 验 分 布 的 形态 以 及 参数 点 估计 的 稳定 性 的 影响 较 大 。 其 次 当 参 数 后 验 
分 布 的 点 估计 不 能 很 好 地 用 均值 代表 ， 或 者 模型 参数 为 非 指 数 族 分 布 时 ，DIC 的 估计 可 能 
存在 偏差 。 例 如 ， 当 参数 后 验 分 布 呈 多 峰 时 DIC 均 容易 小 于 O(Evans et al., 2020; 


Spiegelhalter et al., 2014). 


= 


Ni 
nu 


3.3 WAIC 和 PSIS-Loo-CV 


WAIC(Widely applicable information criterion)(Watanabe, 2010) 和 PSIS-Loo-CV(Pareto 


smoothed importance sampling-leave-one-out cross-validation)( Vehtari et al., 2017) 与 前 面 介绍 的 


DIC 类 似 ， 是 对 elpd 的 近似 ， 且 也 仅 适 用 于 基于 MCMC 采样 的 贝 叶 斯 模型 。 


与 DIC 不 同 ，WAIC 使 用 了 Ipd(Log pointwise predictive density, 也 在 一 些 文章 中 缩写 为 


Ippd) 去 近似 elpd。lpd 是 模型 在 当前 样本 数据 点 上 模型 的 预测 力 ， 其 计算 公式 为 : 


[pd = YN, log [ES-:P(yil69] (20) 


其 中 ,i 是 第 i 个 样本 数据 点 ，S 是 MCMC 采样 的 后 验 分 布 的 样本 的 数量 。 通 过 Ipd 近 
似 elpd 时 往往 会 高 估 elpd， 即 高 估 模 型 的 预测 能 力 。 因 此 ，WAIC 在 计算 elpd 时 引入 了 一 
修正 项 Pyaie， 这 一 项 与 AIC 里 的 参数 数量 和 DIC 里 的 pp 类 似 ， 都 是 用 于 惩罚 模型 的 复杂 
度 。Pwaic 代 表 估 计 出 的 参数 的 有 效 数量 (estimated effective number of parameters), Jib $E 
式 为 : 


n 
Pwaic = > Varsi(logp(yi10®)) Q1) 
i=1 
elpdwarc = ipd — Dwaic (22) 


为 了 使 WAIC 渐进 于 卡 方 分 布 ， 我 们 可 以 将 其 乘 上 -2。 值 得 注意 的 是 ，elpdwawc 越 大 ， 
模型 的 样本 外 预测 能 力 越 好 ， 而 WAIC 越 小 说 明 模型 拟 合 越 好 。 

与 DIC 相 比 ， 虽 然 WAIC 也 采用 插入 预测 的 方法 来 评估 样本 外 泛 化 能 力 ， 但 是 WAIC 
有 具有 额外 的 多 个 优势 。 第 一 ，WAIC 利用 整个 后 验 分 布 计算 模型 复杂 度 的 惩罚 项 ， 其 结果 


更 稳定 。 第 二 ，WAIC 在 参数 后 验 分 布 为 非 高 斯 的 模型 上 的 表现 也 要 优 于 DIC(Myung & Pitt, 
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306 2018). 


307 贝 叶 斯 留 一 法 交叉 验证 (Bayesian leave-one-out cross-validatiom) 也 可 以 被 用 于 近似 

308 . elpd. 

309 其 计算 公式 为 : 

310 elpdiog = Lids ogpGily-i) (23) 
311 p(yily-i) = [Bo x p(6lyi-1)d6 (24) 
312 KP, i 代表 了 第 i 个 数据 样本 的 数据 点 。 基 于 elpd1oo 的 信息 准则 指标 为 Looic(Leave- 


313 ”One-Out Cross-Validation Information Criterion)， 是 elpqdyoo 乘 以 -2。 对 于 留 一 法 交叉 验证 来 说 ， 
314 ”其 对 模型 复杂 度 的 惩罚 项 为 elpdyo。 和 p4d 之 间 的 差异 。 
315 贝 叶 斯 留 一 法 交叉 验证 计算 量 极 大 。 为 了 简便 计算 ，Vehtari et al. (2017) 提 出 了 PSIS- 


316 ”Loo-CV 去 近似 完整 的 Loo-CV. PSIS-Loo-CV 使 用 了 MCMC 样本 ， 大 幅度 降低 了 计算 量 。 


317 ”因为 R 语言 中 loo 包 纳入 了 该 算法 ， 这 使 得 它 被 广泛 应 用 于 实际 研究 中 。 此 外 ，PSIS-Loo- 
318 CV 提供 了 一 项 模型 诊断 指标 : 帕 累 托 分 布 的 参数 k 值 ， 若 绝 大 多 数 数据 点 的 k 值 大 于 0.7， 
319 — 则 说 明 模型 的 设置 可 能 存在 问题 。 


320 除了 使 用 WAIC 和 PSIS-Loo-CV 进行 模型 比较 外 ，Vehtari et al. (2019) 还 推荐 使 用 结合 


321 ”PSIS-Loo-CV RRF J EMHZ (Stacking) T (Friedman et al., 2001) 去 计算 每 个 模型 的 权 
322 Œ, 具体 细节 可 见 Yao et al. (2018)。 与 赤 池 权重 一 样 ， 堆 丢 方 法 的 模型 的 权重 可 用 于 模型 
323 ”平均 。 值 得 注意 的 一 点 是 ， 当 堆 闭 方法 的 模型 权重 用 于 模型 比较 时 ， 表 现 相 似 的 两 个 模型 
324 ”会 互相 “分 享 ” 权 重 ， 导 致 二 者 权重 较 低 且 相近 (Sivula et al., 2020). 

325 与 WAIC 比 起 来 ，PSIS-Loo-CYV 被 证 明 是 对 elpd 更 好 的 近似 (Vehtari et aL, 2016)， 使 得 


z 


l^ 


326 . PSIS-Loo-CV 能 更 全 面 地 考虑 Myung and Pitt (1997) 提 出 的 三 个 影响 模型 复杂 度 的 因素 。 并 


327 . H. Vehtari et al. (2017)7F RHI R E loo 降低 了 使 用 门槛 ， 研 究 者 只 需要 输入 MCMC 采样 的 似 


328 ，” 然 函数 ， 即 可 计算 WAIC 和 PSIS-Loo-CV。 关 于 使 用 WAIC 和 PSIS-Loo-CV 的 具体 建议 ， 


329 ”可 以 详 见 Vehtari (2022). 


330 ”3.4 不 同 交叉 验证 近似 指标 的 总 结 


331 d 2. 各 交叉 验证 近似 指标 的 优 缺 点 以 及 适用 的 参数 估计 范围 


适用 的 参数 估计 方法 ”优点 缺点 

AIC 极 大 似 然 法 ， 最 大 后 计算 简便 ， 在 任何 ”对 交叉 验证 的 近似 准确 程度 不 
验 概率 法 ， 贝 叶 斯 参 参数 估计 情况 下 都 ”如 后 三 者 
数 估 计 可 使 用 
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DIC 贝 叶 斯 参数 估计 WHEE, BAS 没有 利用 贝 叶 斯 参数 估计 得 到 
数 贝 叶 斯 统计 软件 ”的 整个 参数 后 验 分 布 
均 提供 了 该 指标 


WAIC 贝 叶 斯 参数 估计 对 交叉 似 然 的 近似 ”容易 受到 MCMC 采样 极端 值 
更 精确 影响 
PSIS-Loo-CV 贝 叶 斯 参数 估计 对 交叉 似 然 的 近似 ”容易 受到 MCMC 采样 极端 值 
更 精确 影响 
332 区 又 验证 类 的 指标 在 认 知 建 模 中 的 使 用 极 广 ， 随 着 近年 来 黑箱 MCMC 软件 的 流行 ， 使 
333 ”得 研究 者 能 较为 容易 地 使 用 贝 叶 斯 参数 估计 ， 这 极 大 地 推广 了 DIC、WAIC 和 Loo-CV 的 使 
334 
335 虽然 上 述 这 些 指 标 建立 在 不 同 的 假设 和 近似 方法 的 基础 之 上 ，AIC 更 多 地 应 用 在 极 大 


336 ” 似 然 法 估计 或 者 最 大 后 验 概率 法 拟 合 的 模型 ， 而 DIC、WAIC 和 PSIS-Loo-CV 则 用 于 
337  MCMC 估计 的 贝 叶 斯 参数 估计 的 模型 中 。 表 3 总 结 了 各 个 指标 的 优 缺 点 以 及 其 适用 的 参数 
338 ”估计 方法 。 但 是 在 一 些 认 知 建 模 的 应 用 里 ， 它 们 的 差异 并 不 明显 。 例 如 ，Evans (2019) 在 


339 ”LBA 模型 上 对 比 了 AIC、DIC、 和 WAIC， 虽 然 它 们 的 表现 类 似 ， 但 是 DIC 和 WAIC 的 表 


340 ，” 现 要 略 优 于 AIC。 又 比如 ，Westbrook et al. (2020) 使 用 和 AIC 和 DIC 对 比 了 不 同 的 注意 力 


341  DDM(Attentional drift-diffusion model, aDDM)， 二 者 的 结果 几乎 一 致 。 


342 4 边际 似 然 


343 边际 似 然 或 称 作 模型 证 据 则 是 另 一 大 类 的 模型 评估 指标 ， 同 时 也 是 贝 叶 斯 模型 选择 
344 (Bayesian model selection，BMS) 的 核心 。 贝 叶 斯 参数 估计 的 公式 为 : 
POW) = HOOD EE s 
346 公式 的 左 侧 p(6|y) 为 参数 的 后 验 分 布 ， 右 侧 的 第 一 项 p(9) 是 参数 的 先 验 分 布 ， 而 第 二 
347 ”项 p(y19) 则 是 似 然 函数 。 上 式 问 题 在 于 忽略 了 模型 M 这 一 项 。 如 果 对 上 式 进行 修改 ， 增 加 
348 M 即 可 得 


»(y|0, M)xp(6,M) 


349 ply, M) = Fog, Mpe Omaa (26) 
350 此 时 贝 叶 斯 公式 中 的 分 母 即 为 模型 的 边际 似 然 或 模型 证 据 。 边 际 似 然 越 大 ， 模 型 对 样 
351 ”本 数据 解释 的 越 好 。 

352 边际 似 然 可 以 平衡 模型 的 复杂 度 和 拟 合 效果 。 例 如 ， 较 简单 的 模型 可 能 具有 较 低 的 拟 


353 ” 合 优 度 ， 但 是 却 有 较 高 的 边际 似 然 ， 因 为 它们 的 参数 空间 不 确定 性 小 。 相 反 ， 复 杂 的 模型 
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可 能 上 共有 较 高 的 拟 合 优 度 ， 但 是 其 边际 似 然 却 较 小 ， 因 为 它们 在 参数 空间 的 不 确定 性 较 大 


(MacKay, 2003). 


边际 似 然 同 时 考量 了 Myung and Pitt (1997) 总 结 的 三 种 影 


示 。 过 于 简单 的 模型 给 予 观测 数据 的 概率 p(M|y) 往 往 很 少 ， 


响 模 型 复杂 度 的 因素 ， 如 图 所 
因此 其 边际 似 然 也 很 小 ; 过 于 


复杂 的 模型 的 数据 分 布 更 广 ， 但 是 它 分 给 当前 观测 数据 的 概率 p(M|y) 也 很 小 ， 由 此 其 边际 
似 然 也 较 小 ; 只 有 当 复 杂 度 适中 时 ， 观 测 数据 对 应 的 边际 似 然 才 会 较 大 。 


过 于 简单 的 模型 


过 于 复杂 的 模型 


图 3. 边际 似 然 对 不 同类 模型 的 惩罚 。 横 坐标 为 数据 值 ， 纵 坐标 代表 数据 值 对 应 的 似 然 值 。 


边际 似 然 还 对 贝 叶 斯 参数 拟 合 的 先 验 信息 格外 地 敏感 。 例 如 ， 当 使 用 弱 信 息 的 先 验 分 


布 时 ， 复 杂 模 型 的 边际 似 然 小 于 简单 模型 ， 当 使 用 更 罕 的 、 信 息 更 丰富 的 先 验 分 布 时 ， 复 
杂 模 型 的 边际 似 然 就 有 可 能 大 于 简单 模型 (Farrell & Lewandowsky, 2018). 


边际 似 然 在 实际 的 应 用 中 存在 两 个 主要 问题 。 第 一 ， 先 验 分 布 对 边际 似 然 的 计算 结 


具有 重要 影响 。 不 恰当 的 先 验 分 布 ， 尤 其 是 在 数据 点 较 多 的 情况 下 ， 可 能 会 对 参数 估计 的 
结果 产生 显著 影响 ， 进 而 对 边际 似 然 的 计算 结果 产生 很 大 的 影响 Boehm et al., 2018)。 对 于 
先 验 的 选择 ， 主 观 贝 叶 斯 方法 认为 应 当 根据 已 有 的 知识 和 信念 选择 先 验 分 布 ， 而 客观 贝 叶 


斯 方法 则 试图 排除 先 验 选择 的 个 人 因素 ， 更 多 地 使 用 如 先 验 杰 佛 里 斯 默认 先 验 分 布 (Jeffreys 
default prior distribution) 等 无 信息 的 先 验 分 布 (Jeffreys, 1998; Vandekerckhove et al., 2015)。 为 


了 选择 出 更 合适 的 先 验 分 布 ， 研 究 者 可 以 使 用 敏感 性 分 析 (Prior sensitivity check)， 变 换 不 同 


的 先 验 分 布 检查 其 对 边际 似 然 的 影响 。 
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a. 


人 问题 
间 上 进行 积分 。 


是 无 法 简单 计 


LTF 


4.1 BIC 


BIC(Bayesian information criterion)(Schwarz, 1978); AIC Aj, tha Amzu, py) 


为 广泛 的 模型 
的 一 个 特例 (B 
据点 数量 极 多 
基于 贝 叶 斯 模 
计 中 。 


BIC 的 计算 公 


其 


可 见 ，BIC 不 仅 考虑 了 模型 参数 数量 对 从 


复杂 度 的 关键 
HERE 


少 (Dziak et al., 


tH, Kln(n)# BIC 4 


题 是 ， 


计算 


然而 
算 的 。 因 此 ， 许 


选择 指标 之 一 


只 有 极 少 的 简单 模型 的 边际 似 然 可 以 
多 近似 方法 和 采样 积分 方法 被 提出 以 用 于 计算 边 
了 常见 的 几 种 计算 边际 似 然 的 方法 。 


边际 似 然 需要 对 先 验 分 布 和 模型 的 似 然 函数 的 乘积 在 整个 参数 空 
直接 求解 ， 更 多 模型 的 边际 似 然 


nt 


o BIC # FX! 


ishop, 2006). ?4iFf 
时 ， 根 据 大 数 定律 ， 
型 比较 ， 但 是 因为 = 


\ 式 为 : 


拉 普 拉 斯 近似 时 ， 假 设 先 验 分 布 为 无 信 
近似 计算 的 结果 可 以 被 简化 为 BIC。BIC 虽然 
的 极 大 似 然 估 


拉 普 拉 其 


计算 简 


际 似 然 。 下 


J AX 


拉 普 拉 斯 近似 (Laplace approximation) ið PRIZA 


息 先 验 ， 


H 4 


更 ， 也 常 被 用 于 并 无 考虑 先 验 作 | 


BIC = 一 2 x logL(6|y) +K x In(n) 


AX, BIC 与 AIC 一 档 


2020)。 


对 模型 复杂 度 的 惩罚 项 ，K 是 参数 数量 
加 模型 复杂 度 的 影响 ， 也 将 数据 量 作为 惩罚 模型 


(27) 


all 


， 其 值 越 小 说 明 模型 拟 合 的 越 好 。 除 出 


本 矫正 的 SABIC(Sample-adjusted BIC)(Sclove, 1987)， 然 而 其 缺乏 理论 


其 中 7 是 试 次 的 数量 。 


LZ 5h BIC 有 
依据 ， 应 | 
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虽然 BIC 是 最 常见 的 模型 选择 指标 (Wilson & Collins, 2019)， 然 而 BIC 仍然 存在 缺点 。 


A 
LE 


BIC 对 模型 复杂 度 的 惩罚 


KUJ AN 只 考虑 


导 了 模型 的 参数 和 样本 数量 ， 并 没有 考虑 到 Myung and 


Pitt (1997) 总 的 另外 两 个 影响 模型 复杂 的 因素 ， 即 参数 空间 范围 和 模型 的 数学 形式 。 第 二 ， 


4.2 近似 方法 


dX 


拉 斯 近似 (Laplace approximation), 
推断 。 与 BIC 相 比 ,i 


介绍 的 采样 方 


虽然 BIC 是 在 贝 叶 斯 理论 


计算 边际 似 然 


的 近似 方法 计 旬 


法 相 比 ， 


多 研究 中 得 到 


Savage-Dickey 比 适 用 于 在 谋 套 模型 的 模型 


了 应 用 。 


边际 包括 Savage-Dickey 比 (Savage-Dickey Ratio, SDR). 1v3£ 


16 


的 框架 下 推导 而 来 ， 但 是 它 并 未 考虑 不 同 先 验 信息 对 结果 的 影响 。 


核 密 度 估 计 方 法 (Kernel density estimation, KDE) 以 及 变 分 
这 些 方法 考虑 了 先 验 分 布 的 影响 ， 但 计算 量 并 没有 
近似 方法 的 误差 更 大 ， 但 


显著 增 大 ; 与 后 文 
其 计算 量 也 远 小 于 采样 方法 ， 使 得 它 在 很 


J 比较 中 计算 二 者 的 贝 叶 斯 因子 (Dickey, 1973; 
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Dickey, 1976; Wagenmakers et al., 2010)。 假 定 简单 模型 所 缺少 的 参数 为 9 Savage-Dickey tt 
将 幅 套 模型 的 贝 叶 斯 因子 计算 简化 为 完整 模型 0 等 于 0 时 的 后 验 概率 与 先 验 概率 之 比 ， 其 公 
式 为 : 


(28) 


Savage-Dickey 问题 在 于 它 比 适用 于 各 个 参数 共 线 性 较 低 的 情况 ， 而 很 多 认 知 模型 之 间 
的 参数 往往 具有 一 定 的 共 线 性 (Heck, 2019)。 

拉 普 拉 斯 近似 主要 应 用 于 使 用 最 大 化 后 验 概率 拟 合 模型 的 情况 ， 其 主旨 在 于 使 用 多 维 
高 斯 分 布 来 近似 参数 的 分 布 ， 并 用 泰勒 展开 避免 积分 问题 。 与 BIC 相 比 ， 拉 普 拉 斯 近似 的 
边际 似 然 考虑 了 先 验 分 布 的 影响 ， 且 其 计算 误差 更 小 。 拉 普 拉 斯 近似 的 计算 边际 似 然 的 公 
式 为 : 


pe A K 1 
logp(y|M) « log L(6|y) + logp(0|M) TS — x log 2r — 5 loslH| (29) 


P cb ea um ie. 拉 普 拉 斯 近似 是 心理 学 里 最 
常见 的 近似 计算 边际 似 然 的 方法 之 一 (Gershman, 2016; Huys et al., 2011; Myung & Pitt, 1997), 
其 关键 步 又 在 于 计算 海 森 矩 阵 的 行列 式 ， 但 当 海 森 矩 阵 为 非 正定 矩阵 时 ，log | 如 这 一 项 有 
可 能 为 非 数值 (NaN)。 

核 密度 估计 方法 则 可 利用 MCMC 采样 得 到 的 参数 后 验 分 布 来 计算 边际 似 然 。 核 密度 估 
计 方 法 使 用 了 非 参 统计 方法 中 的 核 密度 估计 计算 参数 的 后 验 概率 p(6|y) = k(6|9,8)。 其 中 ， 
k 为 密度 核 函 数 ， 通 常 为 高 斯 分 布 (Wasserman, 2006)， 而 由 是 密度 核 的 带宽 (Band width). 6 
是 MCMC 采样 获得 的 各 个 参数 样本 ， 而 6 是 MCMC 采样 分 布 的 点 估计 代表 ， 一 般 是 概率 密 
度 最 高 的 点 。 


在 得 到 了 参数 的 后 验 概率 p(6|y) 后 ， 根 据 贝 叶 斯 公式 ， 我 们 便 可 以 直接 得 到 边际 似 然 : 
M) = Nu 30 
p(y|M) (ly) (30) 


核 密 度 估计 方法 计算 简便 ， 且 不 受 海 森 矩 阵 的 限制 ， 一 些 模拟 研究 还 发 现 它 的 表现 要 
比 拉 普 拉 斯 近似 等 方法 更 好 (Bos, 2002)。 

变 分 推断 是 除 采 样 方法 外 另 一 常见 的 贝 叶 斯 参数 估计 的 方法 。 与 采样 方法 不 同 的 是 ， 
变 分 推断 试图 用 变 分 分 布 q(z) 近 似 参 数 后 验 分 布 p(9|D)， 从 而 将 贝 叶 斯 公式 里 的 积分 问题 
变换 成 优化 问题 (Bishop, 2006)。 变 分 推断 不 仅 在 贝 叶 斯 参数 估计 里 有 着 许多 应 用 ， 它 还 可 
以 被 当 作 理解 认 知 过 程 的 理论 (Friston et al., 2006)。 变 分 推断 的 优化 函数 被 称 作证 据 下 界 


ELBO(Evidence Lower Bound) 或 者 负 自 由 能 (Negative free energy)(Bishop, 2006; Friston et al., 
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2007)， 是 对 数 边 际 似 然 的 下 限 。 最 大 化 ELBO 时 能 获得 边际 似 然 的 估计 值 ，ELBO 的 公式 
为 : 


ELBO = Buc log" ee TG > )! = Eganllog pOIO, M)] + Dex(q@lp@IM)) BD 


ELBO 的 公式 表明 边际 似 然 可 以 被 分 为 两 部 分 ， 第 一 部 分 是 似 然 函数 在 变 分 分 布 上 的 
期 望 值 ， 代 表 模 型 拟 合 的 好 坏 ， 第 二 部 分 是 变 分 分 布 和 先 验 分 布 的 KL 散 度 ， 代 表 后 验 和 
先 验 的 差异 。 当 模型 拟 合 程 度 越 差 或 者 先 验 分 布 与 后 验 分 布 之 间 的 差异 越 大 时 ， 边 际 似 然 
越 小 (Stephan et al., 2009)。 

在 实际 应 用 里 ， 基 于 Matlab 的 变 分 推断 的 工具 包 VBA 在 拟 合 模型 完毕 时 可 以 返回 优 
化 ELBO(Daunizeau etal.,2014)。 此 外 ， 基 于 Stan 拟 合 的 模型 也 会 返回 未 标准 化 的 后 验 分 布 
概率 和 变 分 分 布 概率 ， 可 以 用 于 计算 ELBO。 变 分 推断 方法 问题 在 于 它 得 到 的 是 边际 似 然 
的 下 限 ， 少 有 理论 研究 关注 ELBO 对 边际 似 然 的 近似 误差 (Blei et al., 2017). 


4.3 采样 方法 计算 的 边际 似 然 


蒙特 卡 洛 采 样 方法 是 一 种 常见 的 统计 模拟 的 方法 ， 当 一 个 积分 公式 难以 直接 求解 时 ， 
我 们 可 以 通过 不 断 地 数值 采样 ， 带 入 到 公式 中 计算 ， 逐 步 盟 近 积分 的 结果 。 因 为 复杂 模型 
的 边际 似 然 的 积分 无 法 通过 解析 解 求解 ， 这 使 得 许多 蒙特 卡 洛 采样 算法 被 应 用 到 计算 边际 
似 然 中 。 

采样 方法 种 类 繁多 ， 包 括 热 力学 积分 (Thermodynamic integration)， 序 列 蒙特 卡 洛 采 样 


(Sequential monte carlo sampler, SMC) 和 粒子 MCMC 的 方法 。 然 而 ， 由 于 缺少 易 用 的 软件 ， 


这 些 方法 的 应 用 受到 了 限制 (Doucet & Johansen, 2009; Murphy, 2023)。 相 比 之 下 ， 重 要 性 采 
样 (Gamerman & Lopes, 2006; Hammersley, 2013) 和 桥 采样 (Bridge sampling)(Gronau et al., 2017; 
Meng & Wong, 1996)， 有 着 易 用 的 软件 或 其 本 身 计 算 简 便 ， 广 泛 应 用 于 心理 学 研究 中 。 值 
得 注意 的 一 点 是 ， 这 两 种 采用 方法 与 拟 合 模型 的 MCMC 并 不 尽 相 同 。 这 两 者 更 多 的 应 用 于 
数值 积分 ， 而 MCMC 则 主要 用 于 参数 拟 合 。 

重要 性 采样 属于 蒙特 卡 洛 方法 的 一 种 ， 它 的 关键 在 于 引入 重要 性 采样 分 布 。 当 从 一 个 
分 布 里 采样 困难 或 者 它 的 样本 质量 不 高 时 ， 我 们 就 可 以 退 而 求 其 次 ， 从 重要 性 分 布 里 采样 
(Bishop, 2006)。 在 计算 边际 似 然 时 ， 我 们 首先 引入 重要 性 采样 分 布 gys(0)， 从 而 得 到 : 
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p(y|M) = | »(yl6, M) x p(6|M)d6 = 


gis(0) 
gis(0) 


| pote. x p(0|M) x do = 
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0,M 0,|M 
E IL | Pensii 
p(y|0, M) x p(0|M) 
了 os(o) gis (8) (32) 
因此 ， 边 际 似 然 可 由 下 式 得 到 : 
BOIM) = yy, POM Mri 6, ~ (8) (33) 
通过 从 重要 性 分 布 里 不 断 采样 ， 带 入 到 贝 叶 斯 公式 里 计算 ， 再 将 不 同样 本 的 结果 求 和 


即 可 得 到 边际 似 然 。 在 重要 性 采样 分 布 里 ， 重 要 性 


计算 边际 似 然 的 倒 交 


BY TOME 


sampling)(Gelfand & Dey, 1994). 


利用 MCMC 采样 得 到 参数 后 验 的 样本 来 计算 边 
性 采样 被 称 为 调和 平均 估计 器 (Harmonic mean estimator). 


差 较 大 。 


结果 方 


提高 调和 平均 估计 器 性 能 的 常见 方法 有 如 下 几 种 。 第 一 


et al., 2018)。 此 法 需要 RIS 乘 上 


分 布 的 选择 对 结果 影响 极 大 。 为 了 保证 
个 较 厚 尾部 的 分 布 。 此 外 ， 当 使 用 重要 性 采样 


J 重要 性 采样 也 被 称 作 RIS(Reverse importance 


相对 的 ，RIS 的 采样 分 布 更 需要 一 个 有 着 较 注 尾 部 的 分 布 。 
际 似 然 能 显著 减低 计算 量 ， 此 时 的 重要 
调和 平均 器 易于 计算 ， 但 是 计算 


， 使 用 加 权重 要 


性 采样 (Acerbi 


个 有 着 较 薄 尾部 的 函数 F(6)， 且 三 F(6)d6 = 1， 因 此 f(9) 


可 以 是 多 维 高 斯 分 布 。RIS i$ 


5 -> p(y|0i, M) x p(0;|M) 


很 多 应 用 。 
桥 采 样 是 对 重 


第 二 是 将 MCMC 样本 蔡 换 为 均匀 分 布 或 者 高 


(Steingroever et al., 2016; Vandekerckhove et al., 2015)， 该 方法 因为 便于 计算 ， 


要 性 采样 的 改善 和 提升 ， 与 重 


议 分 布 的 桥 分 布 (Bridge distribution), 


(Meng & Wong, 1996)。 桥 采样 


这 增加 了 计算 的 时 间 和 资 


bridgesampling fai tt Sit 


TNS 


样本 。 相 较 于 计算 更 为 简单 的 重要 性 采样 ， 
方差 更 小 ， 并 且 更 适合 于 分 层 模 型 。 桥 采样 


资源 ， 具 体 可 见 Gronau et al. (2017). Gronau 5 


公式 为 : 


fi) 


斯 分 布 与 MCMC 样 


在 心理 学 有 着 


要 性 采样 一 样 ， 桥 采样 也 利用 了 MCMC 的 
桥 采 样 避 开 了 选择 分 布 的 步 又 ， 其 计算 结果 的 
的 特点 在 于 ， 通 过 引入 一 个 连接 目标 分 布 和 提 
以 此 减 小 计算 边际 似 然 的 方差 并 提高 计算 的 精度 


的 缺点 在 于 ， 其 计算 较为 复杂 ， 需 要 反复 迭代 直至 结果 稳定 ， 


等 人 开发 的 R 包 
使 用 JAGS 和 Stan 拟 合 的 模型 可 以 使 用 该 包 来 计算 边际 似 
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44 不 同方 法 计算 边际 似 然 的 总 结 
表 3. 各 边际 似 然 近 似 指标 的 优 缺点 以 及 适用 的 参数 估计 范围 


适用 的 参数 估计 方 ” 优 点 
法 


BIC 极 大 似 然 法 ， 最 大 ”计算 简便 ， 在 任何 参 
后 验 概率 法 ， 贝 叶 ” 数 估计 情况 下 都 可 使 
斯 参数 估计 。 用 。 


KDE 贝 叶 斯 参数 估计 。 “计算 较 采 样 方法 更 为 
简便 。 


拉 普 拉 斯 近似 极 大 似 然 法 ， 最 大 ”在 任何 参数 估计 情况 
后 验 概率 法 ， 贝 叶 下 都 可 使 用 。 
斯 参数 估计 。 


重要 性 采样 贝 叶 斯 参数 估计 。 ” 较 桥 采样 计算 简便 。 


桥 采 样 贝 叶 斯 参数 估计 。 ”对 边际 似 然 的 近似 比 
较 精 准 。 


缺点 


没有 先 验 的 影响 ， 对 边际 似 然 
的 近似 不 如 后 四 者 。 


较 少 有 研究 使 用 。 没 有 工具 
包 ， 需 要 研究 者 手动 实践 。 


海 森 矩阵 有 可 能 为 NaN 值 。 没 
有 工具 包 ， 需 要 研究 者 手动 实 
践 。 
容易 受到 MCMC 采样 极端 值 影 
响 。 


计算 步骤 复杂 ， 只 有 R 包 
bridgesampling 提供 了 简便 的 使 
用 接口 


计算 边际 似 然 的 方法 种 类 繁多 ， 选 择 何 种 方法 依赖 于 具体 的 使 用 情景 。BIC 是 最 简单 
的 方法 ， 但 它 的 误差 也 最 大 。 此 外 ， 因 为 BIC 是 无 先 验 信息 的 边际 似 然 的 近似 ， 理 论 上 使 


| BIC 会 更 倾向 于 选择 更 简单 的 模型 。Evans (20191 79, “4h 


究 者 使 用 有 信息 的 先 验 分 布 


拟 合 的 模型 时 使 用 BIC 是 不 恰当 的 。 计 算 边 际 似 然 的 先 验 分 布 应 与 拟 合 模 型 的 先 验 保持 一 


致 。 


表 3 总 结 了 各 个 边际 似 然 指 标的 优 缺 点 。 当 使 用 最 大 化 后 验 概率 法 拟 合 模型 时 ， 拉 普 


拉 斯 近似 是 更 简便 的 方法 。 如 果 使 用 MCMC 采样 ， 且 模型 非 分 层 模型 时 ， 重 要 性 采样 、 拉 


普 拉 斯 近似 或 者 KDE 方法 更 为 合适 ， 因 为 它们 的 计算 量 更 小 。 


知 模型 是 分 层 模型 ， 此 时 拉 


TER 


普 拉 斯 近似 的 海 森 和 矩阵 的 行列 式 不 易 计 算 ， 再 加 之 重要 性 采 检 
难 ， 这 使 得 桥 采 样 是 更 为 合理 的 选择 。 


5 模型 比较 计算 的 案例 


fF 又 面临 着 采样 分 布 选择 的 蒜 


A 


前 文 介 


Dorfman & Gershman, 2019; Guitart-Masip et al., 2012). aX Ar} 


了 认 知 建 模 里 常用 的 模型 比较 指标 ， 接 下 来 部 分 本 文 以 正 交 Go /No Go 范式 
为 示例 来 介绍 一 些 和 常用 模型 指标 的 其 体 计算 以 及 具体 使 用 
数据 为 使 用 下 文 介绍 的 认 知 


方法 (Cavanagh et al., 2013; 


模型 模拟 产生 。 模 拟 数 据 和 后 续 模型 比较 指标 的 计算 使 用 了 R 语言 ， 具 体 代 码 见 在 线材 料 : 
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https://github.com/zaizibai/model comparison. 


正 交 Go/No Go 范式 


常 被 用 于 研究 巴 浦 洛 夫 学 习 和 工具 性 学 习 之 间 的 关系 ， 图 4 展示 了 


该 范式 的 基本 流程 。 该 范式 是 2X2 的 被 试 内 实验 设计 ， 其 中 第 一 个 变量 是 刺激 反应 动作 : 
Go 和 No Go; 第 二 个 变量 是 行为 反应 后 的 反馈 类 型 .获得 奖励 和 避免 惩罚 。 刺 激 反 应 动作 


和 反馈 类 型 两 个 条 件 结合 起 来 共 形 成 四 种 实验 条 件 : Go- 获 得 奖赏 、Go- 避 免 惩罚 、No Go- 


获得 奖赏 和 No Go- 避 免 惩 罚 。 每 种 条 件 下 的 反馈 均 非 100% 确 定性 的 事件 ， 在 “Go- 避 免 征 


TW” REF IER CBM Go) 有 80% 的 概率 避免 惩罚 ， 但 有 20% 的 概率 无 法 避免 ， 而 错 
TRAD. CB No-Go) MA 80% 的 概 率 受到 惩罚 ，20% 的 概率 避免 惩罚 。 试 次 开始 第 一 屏 的 
图 片 在 该 范式 中 被 称 作 提示 符号 cue， 共 有 四 种 ， 与 实验 条 件 一 一 对 应 。 实 验 开始 时 ， 被 试 
并 不 知道 每 类 条 件 下 正确 的 反应 ， 需 要 根据 反馈 不 断 地 来 学 习 提 示 符 号 的 正确 反应 。 根 据 
学 习 理 论 ， 在 该 范式 里 当 反 馈 是 获得 奖赏 时 ， 人 们 易 有 Go 反应 ; 当 反 馈 是 避免 惩罚 时 ， 则 


更 容易 产生 No Go 反应 (Dayan et al., 2006)。 


go to win go to avoid losing no-go to win no-go to avoid losing 


1000 ms 


250 - 3500ms 


图 4 案例 的 实验 设计 ， 引 自 Betts 


* 


ITI 750 -1500ms 


M 


et al. (2020)。 单 个 试 次 的 流程 如 下 ， 被 试 首先 会 看 到 一 个 cue， 在 cue 消失 后 需 进 行 Go 或 者 No Go 


得 奖赏 。 


研究 者 通常 使 用 简 身 


反应 ， 反 应 完毕 屏幕 会 呈现 反应 结果 。 在 此 任务 里 ， 被 试 需要 去 主动 学 习 不 同 的 cue 的 正确 反应 ， 以 及 正确 结果 是 避免 惩罚 还 是 获 


的 强化 学 习 模型 对 该 范式 下 的 数据 进行 建 模 。 该 模型 认为 人 类 决 


策 受 两 种 学 习 因 素 影 响 : 


习 理论 ， 是 刺激 -反应 - 结 


巴 浦 洛 夫 学 习 和 工具 性 学 习 。 工 具 性 学 习 源 自 斯 金 纳 的 工具 性 学 


果 (Stimulus-Response-Outcome, SRO) 的 联结 ， 而 巴 浦 洛 夫 学 习 则 是 


刺激 -结果 的 联结 ， 与 反应 无 关 。 有 基体 而 言 ， 选 择 Go 或 No Go 反应 的 决策 权重 的 公式 如 下 : 


这 其 中 b 代 表 个 体 对 


w=b+Q+xrxV (35) 
Go 或 No Go 反应 的 天 然 的 偏好 ， 被 称 作 Go bias 参数 ， 而 0 是 工具 


性 学 习 的 决策 变量 ， 而 Y 则 是 巴 浦 洛 夫 效 应 的 决策 变量 ，r 是 它 的 度量 参数 。 关 于 该 模型 的 


具体 细节 ， 可 以 详 见 Betts et al. (2020) 或 Swart et al. (2017). 
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本 文中 我 们 将 使 用 了 源 自 Raab & Hartley (2020) 的 公开 数据 ， 具 体 数 据 地 址 为 : 
https:/osfio/4h6ne/。 该 份 数据 包含 了 61 名 被 试 。 图 5 呈现 了 四 个 条 件 下 选择 Go 反应 的 原 
始 数 据 。 和 针对 这 份 数据 ， 我 们 总 计 拟 合 了 四 种 模型 ， 分 别 为 包含 了 使 用 了 公式 一 的 完整 模 
型 (模型 一 )， 没 有 巴 浦 洛 夫 效应 和 Go bias 参数 的 模型 (模型 二 )， 没 有 巴 浦 洛 夫 效应 但 是 有 
Go bias 参数 的 模型 (模型 三 ) 和 没有 Go bias 参数 但 却 有 巴 浦 洛 夫 效 应 的 模型 (模型 四 )。 值 得 
一 提 的 是 ， 我 们 分 别 使 用 了 点 估计 的 最 大 化 后 验 概 率 法 和 层级 贝 叶 斯 参数 估计 拟 合 上 述 四 


个 模型 。 层 级 贝 叶 斯 参数 估计 通过 概率 编程 软件 Stan 实现 (Carpenter et al., 2017). 


P(Go) 


[一 Go to win reward No Go to win reward 
Go to avoid punishment 一 -| No Go to avoid punishment 


图 5 案例 Trial-by-trial 的 行为 数据 。 图 中 横 坐 标 是 试 次 数量 ， 纵 坐标 是 选择 Go 反应 的 比例 。 四 种 颜色 代表 了 四 种 cue. 
随 着 试 次 数量 的 增 大 ， 个 体 行为 逐渐 变 得 稳定 ， 这 体现 了 工具 性 学 习 的 作用 。 而 获得 奖赏 和 避免 惩罚 cue 下 ， 个 体 Go 
反应 的 比例 的 不 对 称 性 则 体现 了 巴 浦 洛 夫 效 应 。 具 体 而 言 ， 个 体 更 易 有 Go 反应 去 获得 奖赏 ， 但 是 却 更 多 地 有 No Go 反 


应 去 避免 惩罚 。 


51 拟 合 优 度 指标 的 计算 


本 文案 例 数据 是 离散 变量 的 选项 数据 ， 因 此 可 以 计算 似 然 函 数 ，psewdoyr2 和 ROC H 
线 等 指标 。 在 案例 里 ， 我 们 仅 以 pseudo 7? 为 例 。 根 据 公 式 7， 我 们 分 别 计 算 了 案例 的 四 个 
模型 的 pseudo r?。 结 果 为 模型 一 的 pseudo r? 为 0.157， 模 型 二 的 pseudo rÆ 0.132， 模 型 


三 的 pseudo7? 为 0.147， 模 型 二 的 pseudo r Æ 0.139。 这 表明 模型 一 的 绝对 拟 合 是 要 优 于 


尽管 模型 一 的 绝对 拟 合 是 要 优 于 其 余 模 型 ， 但 是 拟 合 优 度 并 未 考虑 模型 复杂 度 ， 在 接 


下 来 的 两 部 分 ， 本 文 将 分 别 介绍 交叉 验证 指标 和 边际 似 然 指 标的 计算 和 使 用 的 方法 。 
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5.2 ”交叉 验证 指标 的 计算 和 使 用 


交叉 验证 指标 的 指标 通常 的 使 用 方法 是 比较 所 有 被 试 指标 的 均值 或 者 之 和 ， 然 而 
Devine et al. (2023) 通 过 模拟 研究 发 现 考 虑 了 模型 比较 指标 不 确定 性 的 方法 对 模型 比较 的 正 
确 率 有 着 显著 提升 ， 仅 仅 比较 模型 指标 的 均值 则 易 有 较 高 的 假 阳性 。Devine et al. (2023) 建 
议 使 用 Vehtari et al. (2017) 采 用 的 方法 ， 对 基于 贝 叶 斯 模型 的 指标 ， 例 如 DIC，WAIC 和 
PSIS-Loo-CV， 通 过 Wald 检验 以 比较 不 同 模型 。。Wald 检验 具体 流程 是 分 别 计算 模型 指标 
差异 的 均值 和 标准 误 ， 如 果 均 值 大 于 1.96 个 标准 误 时 ， 就 判断 为 模型 之 间 的 差异 显著 。 根 
据 Vehtari et al. (2017)， 单 个 模型 比较 指标 的 标准 误 计 算 公式 为 : 


N N — 
se(elpd) = yaad, (elpd; — elpa)’ (36) 
D 


— N : 
其 中 i 是 样本 数据 点 ，N 在 心理 学 实验 里 即 为 所 有 被 试 的 所 有 试 次 ，elpa = :eu 是 


指标 的 均值 。 同 理 ， 当 计算 两 个 模型 比较 指标 之 差 的 标准 误 时 ， 先 计算 每 个 数据 点 上 模型 
比较 指标 之 差 ， 然 后 再 计算 N 个 差异 的 标准 误 ， 其 公式 为 : 


N N 2 
se(elpd, — elpds) = WaT (Cipdu ~ elpds,) ~ Celpd, — elpds)) ) (37) 
i- 


F (elpd, 一 elpds) 是 两 个 模型 比较 指标 之 差 的 均值 。Wald 检验 将 模型 指标 的 不 确定 
性 考虑 在 内 ， 其 假 阳 性 的 概率 更 低 。 


WAIC LOOIC 
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50 


图 6. 不同 交叉 验证 类 的 近似 指标 对 四 个 模型 的 评估 ， 信 息 准 则 指标 越 小 代表 模型 拟 合 的 越 好 。 
iE: PSIS-Loo-CV 计算 的 结果 常 记 作 LOOIC (Leave-One-Out Information Criterion). 


在 本 文 的 案例 里 ， 我 们 用 最 大 化 后 验 概率 法 的 结果 计算 了 AIC， 并 用 分 层 贝 叶 斯 参数 
估计 的 结果 计算 了 DIC、WAIC 和 PSIS-Loo-CV， 如 图 。 可 以 看 到 不 同 指标 的 结果 保持 了 一 
致 ， 模 型 一 和 模型 三 的 表现 优 于 其 余 二 者 。 
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在 本 文 的 案例 里 ， 我 们 对 模型 一 和 模型 三 进行 了 Wald 检验 ， 其 结果 表明 ， 两 模型 的 
DIC, WAIC 和 Loo-CV 存在 显著 差异 ， 均 是 模型 一 优 于 模型 三 ， 旦 三 者 的 结果 类 似 ， 具 体 


为 H Dpic 一 48.23 > 1.96 x ODIC = 22.52 , Dwaic 一 44.3 > 1.96 x Ow AIC = 22.15 , 


Dpsis-Loo-cv 一 38.5 > 1.96 x OPSIS—Loo—CV 一 21.77。 其 中 D 表示 模型 2 与 模型 1 TER X Us 


证 指标 上 的 差异 ， 而 o 则 是 模型 差异 的 标准 误 。 


5.3. 边际 似 然 指 标的 计算 和 使 用 

边际 似 然 指 标 作为 贝 叶 斯 模型 比较 的 核心 ， 它 有 着 许多 的 使 用 方法 。 最 为 常见 的 一 种 
为 ， 当 研究 者 比较 两 个 模型 时 ， 可 以 计算 两 个 模型 的 边际 似 然 的 比值 ， 结 果 即 为 贝 叶 斯 因 
子 (Bayes factor) (Kass & Raftery, 1995)。 贝 叶 斯 因子 的 特性 在 于 能 够 为 零 假设 提供 证 据 ， 因 
此 它 在 当前 的 心理 学 研究 里 有 着 许多 应 用 。 关 于 贝 叶 斯 因子 在 数据 分 析 的 使 用 ， 以 及 其 分 
析 结 果 的 解读 ， 可 见 胡 传 鹏 et al. (2018)。 此 外 ，BIC 作为 边际 似 然 的 近似 ， 也 可 以 被 用 于 
计算 贝 叶 斯 因子 和 后 验 模型 概率 (Wagenmakers, 2007)。 其 计算 方法 为 ， 将 两 个 模型 的 BIC 
之 差 乘 以 -0.5， 然 后 通过 指数 函数 可 以 将 其 转化 为 贝 叶 斯 因子 : 


BIC, E a) 
2 


值得 注意 的 是 ， 与 常见 的 数据 分 析 不 同 ， 认 知 建 模 里 贝 叶 斯 因子 对 比 的 两 个 模型 可 以 
是 任意 两 个 模型 ， 只 要 它们 建 模 的 数据 相同 即 可 。 而 T-test H ANOVA 里 对 比 的 两 个 模型 则 
必须 是 备 择 假 设 和 零 假设 。 

在 本 文 的 案例 里 ，BIC 和 拉 普 拉 斯 近似 的 边际 似 然 均 基 于 最 大 化 后 验 概率 法 的 结果 ， 

我 们 可 以 利用 两 者 的 结果 计算 每 个 被 试 的 贝 叶 斯 因子 。 相 比 之 下 桥 采 样 方法 适用 于 分 层 贝 
叶 斯 估计 ， 可 以 直接 计算 组 层面 的 边际 似 然 值 ， 进 而 可 以 获得 组 层面 的 贝 叶 斯 因子 (Group 
bayes factor, GBF)。 
图 7 比较 了 基于 BIC、 拉 普 拉 斯 近似 和 桥 采 样 方法 计算 组 层面 边际 似 然 的 结果 。 与 交 
又 似 然 的 指标 不 同 的 是 ， 边 际 似 然 并 没有 总 是 偏向 最 复杂 的 模型 即 模型 一 。 当 我 们 使 用 
BIC 时 ， 最 优 模型 是 最 简单 的 模型 二 ， 拉 普 拉 斯 近似 则 支持 模型 一 ， 桥 采样 表明 模型 三 位 
最 优 。 这 反映 了 相 较 于 交叉 验证 类 的 指标 ， 边 际 似 然 的 惩罚 力度 更 大 。 并 且 不 同 指标 的 数 
值 的 差异 不 仅 是 因为 近似 边际 似 然 的 精度 不 同 ， 同 时 也 受到 模型 拟 合 方法 差异 的 影响 。 


BF) = exp (- (38) 
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Log marginal likelihood 


Laplace Bridge-Sampling 


图 7， 不 同 组 边际 似 然 近 似 指标 对 四 个 模型 的 评估 。 所 有 指标 均 被 转换 为 对 数 边际 似 然 ， 其 值 越 大 表示 模 
型 拟 合 的 越 好 。 


传统 的 模型 比较 通常 要 选择 出 一 个 最 优 模型 ， 但 单一 的 模型 既 可 能 过 拟 合 ， 也 忽视 模 
型 的 不 确定 性 。 研 究 者 提出 贝 叶 斯 模型 平均 的 思路 ， 即 同时 考虑 多 个 模型 影响 的 权重 ， 以 
增强 基于 模型 所 做 出 推断 的 鲁 棒 性 (Clyde et al., 2011; Hinne et al., 2020; Merlise & Edward, 
2004)。 通 过 贝 叶 斯 模型 平均 ， 研 究 者 可 以 计算 BFincwsion(Inclusion bayes factor) 来 比较 不 同 


类 型 的 模型 ， 其 公式 为 : 


inclusion D(M,agdly) PCM eati) 


这 其 中 p(Moari) 和 p(Mcwrz) 是 类 型 一 和 类 型 二 的 模型 先 验 概 率 , P(Mcati ly) FCM cat2 ly) 


则 是 类 型 一 和 类 型 二 的 模型 后 验 概 率 。 模 型 的 后 验 概 率 计 算 公式 为 : 


p(Mily) x p(Mj) 
Xx PCM ly) x p(Mj) 


p(Mly) 是 边际 似 然 ，p(M) 是 模型 的 先 验 概率 ， 通 常情 况 下 为 均匀 分 布 。BF_inclusion 
将 不 同类 型 的 模型 组 合 起 来 进行 比较 ,减少 了 模型 不 确定 性 的 影响 。 

模型 平均 在 变量 选择 、 元 分 析 等 等 领域 都 有 着 广泛 的 应 用 ， 例 如 JASP 的 ANOVA 部 分 
就 使 用 了 贝 叶 斯 模型 平均 ( 王 允 宏 et al., 2022)。 但 是 其 在 认 知 建 模 的 应 用 还 较 少 。 仅 有 的 一 
篇 研究 是 Boehm et al. (2023)， 在 该 研究 里 作者 在 使 用 模型 平均 探究 速度 -准确 性 权衡 对 
DDM 参数 的 影响 时 发 现 使 用 贝 叶 斯 模型 平均 能 减少 模型 过 拟 合 对 DDM 参数 估计 的 影响 ， 
使 得 对 DDM 参数 分 析 的 结果 更 加 准确 。 另 外 贝 叶 斯 模型 平均 受 限 于 边际 似 然 的 计算 ， 在 
边际 似 然 计算 困难 的 情况 下 ， 难 以 计算 后 验 模 型 概率 。 一 种 可 行 的 方法 是 使 用 亦 池 权 重 或 
者 BIC RE aS. Iih SHER TT IZA PSIS-Loo-CV 的 模型 权重 也 可 以 用 于 


(39) 


p(Mily) = (40) 
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替代 后 验 模型 概率 (Yao et al., 2018). 


企 本 文 的 案例 里 ， 为 了 方便 起 见 ， 我 们 使 用 前 文 计生 
先 计算 了 有 无 参数 Go bias 的 BFB F inclusion. 
。 传 统 方法 在 判断 Go bias 是 否 能 显 


数 Go bias 的 模型 为 模型 二 和 模型 三 


有 参数 b 的 模型 包含 


的 BIC Kit BB Finctusion ? 


我 们 首 
模型 一 和 模型 四 ， 无 参 


车 提升 模型 表现 时 ， 


是 比较 模型 一 和 模型 


B3 
A fm 


升 模型 拟 合 。 


其 BF 等 于 2.29， TUB Finctusion SF 


模型 平均 的 方法 和 传统 方法 的 结果 类 似 ， 这 


三 ， 而 这 二 者 的 差异 仅 在 于 是 否 
司 的 BF 等 于 4.29， 而 考虑 了 多 个 模型 的 BFincwsion 则 为 3.60， 均 支持 Go bias 并 不 能 显著 提 
我 们 按照 同样 的 方法 计算 了 有 无 参数 巴 浦 洛 夫 效 应 的 模型 的 BF 和 BFncrusion， 
于 1.86， 也 表明 添加 巴 浦 


含 Go 


是 因为 在 本 文 的 案例 


洛 夫 效应 并 不 


bias。 模 型 一 和 模型 三 之 


能 提升 模型 拟 合 。 
EE ， 模 拟 数据 的 各 参数 之 


间 没 有 相关 ， 但 当 各 参数 的 相关 较 大 时 ，BF 和 BFincwsion 的 结果 差异 会 较 大 。 


6 总 结 与 展望 


计算 模型 在 实验 心理 学 的 
键 的 一 环 ， 不 恰当 地 进行 模型 比较 可 能 会 让 
型 比较 指标 对 基于 计算 模型 的 研究 来 说 至 关 


和 新 兴 的 模型 选择 指标 ， 对 最 常见 的 两 类 指标 : 
建议 了 不 同 指 标的 使 用 条 件 。 


标 进 行 了 对 比 ， 
方法 。 

值得 一 提 的 是 ， 
AIC 和 BIC 等 。 这 
而 近年 来 被 推广 的 指标 ， 诸 如 WAIC， 
模型 复杂 度 的 考量 要 更 加 的 完善 ， 由 此 基于 这 


过 往 许多 使 用 计算 模型 
些 指标 尽管 有 着 许 


AU BOR T AR 


iB 


研究 者 得 出 错误 的 结 


重要 。 本 文 梳理 、 总 结 了 在 认 知 建 模 令 


FE 愈 发 的 广泛 ， 而 模型 比较 是 认 知 建 模 中 关 
仑 。 因 此 ， 合 理 地 使 用 模 


页 域 常 见 


基于 交叉 验证 


m 


并 结合 


+ 的 研究 均 采 


型 复杂 度 等 


的 指标 和 基于 边际 似 然 的 指 
一 个 简单 的 案例 ， 


提供 了 具体 的 计算 


较为 简单 的 模型 比较 指标 ， 如 
多 优点 ， 但 却 忽 视 了 影响 模 
方法 计算 的 边际 似 然 等 较为 复杂 的 指标 对 


诸多 重要 因素 。 


文 些 指标 的 模型 比较 的 结果 也 更 加 稳定 可 靠 。 


随 着 越 来 越 多 成 熟 旦 容易 操作 的 工具 的 发 展 ， 
除 此 之 外 ， 早 期 认 知 建 模 的 研究 大 都 只 


这 些 指 标 将 更 多 地 应 用 在 研究 里 。 
主 重 使 用 相对 指标 来 评估 模型 的 优 务 ， 忽 视 了 


模型 拟 合 的 绝对 好 坏 。 这 导致 了 一 种 困境 : 即便 我 们 选择 出 了 一 个 最 优 模型 ， 该 模型 却 并 
不 一 定 对 样本 数据 有 完善 的 描述 。 因 此 ， 在 进行 模型 比较 时 ， 我 们 首先 需要 通过 相对 指标 
选择 最 优 模型 ， 再 通过 拟 合 优 度 指 标 评估 模型 对 当前 数据 拟 合 的 绝对 优良 度 。 只 有 当 模 型 
在 相对 指标 上 胜出 其 他 候选 模型 ， 且 在 数据 上 有 着 良好 的 绝对 拟 合 优 度 时 ， 我 们 才能 将 它 
当 作 最 优 模型 。 随 着 后 验 预测 检查 等 方法 的 普及 ， 今 后 的 研究 应 将 更 多 地 结合 相对 指标 和 
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绝对 指标 来 进行 模型 评估 及 模型 验证 。 


6.1 边际 似 然 和 交叉 验证 的 争论 


本 文 着 重 介绍 了 边际 似 然 与 交叉 验证 这 两 类 最 常见 的 模型 比较 方法 。 尽 管 二 者 基于 的 
理论 大 相 径 庭 ， 但 是 也 有 研究 表明 二 者 间 存 在 不 少 联系 。 例 如 ，Fong and Holmes (2020) 证 
明了 边际 似 然 在 一 些 特定 情况 下 与 交叉 验证 等 价 。 但 是 这 二 者 中 哪 一 个 更 适合 实际 研究 以 
及 如 何 选择 它们 仍 有 许多 在 争议 。 

建 模 中 通常 有 M-Closed 和 M-Open 这 两 种 场景 。M-Closed 场景 假设 在 候选 模型 中 存在 
一 个 “真实 ”模型 ， 能 完美 地 描述 数据 的 生成 过 程 。M-Open 场景 假设 所 有 的 候选 模型 都 不 能 


完美 地 描述 数据 的 生成 过 程 。 在 M-Open 场景 下 ， 模 型 选择 的 


模型 中 表现 最 好 的 模型 ， 


et al., 2013)。 


假如 在 M-Closed 场景 下 且 数 据 数量 接近 无 限 ， 此 时 边际 似 然 能 选择 
在 M-Open 场景 下 ， 交 叉 验 证 则 更 适合 ， 它 能 找 出 KL BUZE 
然 在 M-Closed 环境 下 ， 交 叉 验 证 也 能 找到 与 数据 
“真实 ”模型 。 有 研究 表明 边际 似 然 和 交叉 验证 两 者 的 优势 是 无 法 被 结合 的 (Vrieze, 2012; 


Yang, 2005). 


目标 是 找到 


而 不 是 寻找 真实 模型 (Burnham & Anderson, 2004; Gelman, Hwang, 


个 在 所 有 候选 


出 “真实 "模型 。 而 


u 


KL 散 度 最 小 的 模型 ， 


E 离 “真实 ”模型 最 小 的 模型 。 虽 


但 它 却 无 法 找 出 


边际 似 然 的 支持 者 对 交叉 验证 的 反驳 主要 集中 在 交叉 验证 无 法 找 出 “真实 ”模型 这 一 


点 上 。 例 如 ，Gronau and Wagenmakers (2019) 在 实验 


据 ， 并 使 用 不 同 复杂 / 


Pesudo 贝 叶 斯 因子 对 各 个 模型 进行 评估 和 对 比 。 
更 高 的 模型 而 非 产 生 数据 的 真实 模型 的 固有 缺陷 外 ，Loo-CV 对 真实 模型 的 支持 会 随 着 数据 
当 数 据 增长 时 ，Loo-CV 对 真实 模型 
当 研究 者 使 用 Loo-CV 时 应 该 格外 谨慎 。 


的 增长 而 呈 倒 U 型 。 


Gronua 和 Wagenmakers 认为 ， 


度 的 模型 拟 合 模拟 的 数据 ， 最 后 月 


Zr 


H Loo-CV 和 基 


FEY Beta-Bernoulli 模型 生成 模拟 数 
于 Loo-CV 计算 的 


分 析 结 果 发 现 ， 除 Loo-CV 会 选择 复杂 度 


! 的 支持 会 


先 下 降 再 增长 。 因 此 


Vehtari et al. (2019) /& Gronau and Wagenmakers (2019) 的 观点 ， 认 为 M-Closed 设置 只 


是 为 了 简化 建 模 问题 ， 实 际 应 用 中 很 少 出 现 M-Closed 环境 。 并 且 Vehtari et al. (2019) 认 为 


Gronau 和 Wagenmakers 错误 地 使 


合 的 方法 ， 将 各 个 模型 的 Loo-CV 作为 输入 值 ， 
环境 下 选择 出 最 优 模型 。 
为 一 方面 ， 
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| Loo-CV Zt 


AE SUUS UE A) SCRE AT A 321 E TELA E 


Pesudo J Ht 


子 。 相 反 ， 如 果 使 用 堆 
所 计算 的 模型 权重 可 以 很 好 地 在 M-Closed 


有 很 多 优良 的 理论 特性 ， 但 是 


很 多 情况 其 实际 应 用 却 不 尽 


如 人 意 。 原 因 在 于 ， 边 缘 似 然 并 不 是 对 模型 泛 化 能 力 的 衡量 ， 
而 是 在 给 定 了 先 验 分 布 和 模型 的 情况 下 ， 衡 量 模型 对 当前 数据 解释 的 能 力 。 即 使 一 个 模型 


使 用 了 合适 的 先 验 分 布 并 具 


此 外 ， 在 贝 叶 斯 推断 


有 更 好 的 边际 似 然 ， 其 在 样本 外 数据 上 的 泛 化 能 力也 不 一 定 比 


其 他 模型 更 强 (Lotfi et al., 2022). 


， 选 择 合适 的 9 


E 验 分 布 是 极为 困难 的 。 例 如 ，Gelman, Carlin, et 


al. (2013) 认 为 ， 在 边际 似 然 的 实际 应 用 中 ， 不 合适 的 有 信息 的 先 验 分 布 会 对 边际 似 然 造成 
极 大 的 影响 。 模 型 的 先 验 分 布 愈 是 无 信息 ， 边 际 似 然 的 模型 比较 愈 倾向 于 更 简单 的 模型 。 
而 与 边际 似 然 相 比 ，Loo-CV 则 不 会 受到 这 


Kennedy et al. (2019) 通 过 对 


气球 模拟 风险 人 
模 ， 测 坛 了 不 同 先 验 分 布 对 贝 叶 斯 因子 的 影响 。 他 们 发 现 ， 随 着 先 验 分 布 无 信息 程度 的 增 


文 方 面 的 影响 (Gelman, Carlin, et al., 2013)。 例 如 ， 


E 务 (Balloon Analog Risk Task, BART) 实 验 数据 建 


大 ， 贝 叶 斯 因子 会 逐渐 偏向 于 简单 的 模型 。 在 本 文 的 案例 中 也 是 如 此 ， 因 为 BIC 假设 了 无 


i MUS A). Tib 


的 贝 叶 斯 因子 也 要 远 小 于 其 他 两 者 。 


6.2 模型 选择 指标 的 使 用 建 


议 


斯 近似 和 桥 采 样 均 使 用 了 实际 拟 合 模型 的 先 验 分 布 ， 所 以 BIC 


首先 ， 当 我 们 进行 模型 


比较 时 应 当 注 意 每 个 指标 所 适用 的 情况 。 各 个 模型 比较 指标 仅 


适用 于 与 建 模 数 据 一 致 的 场景 。 例 如 ， 基 了 


F 反 应 时 和 选项 数据 的 DDM 的 AIC 无 法 和 基于 


选项 数据 建 模 的 强化 学 习 模型 的 AIC 进行 比较 (Fontanesi et al., 2019). 


其 次 ， 当 模型 比较 的 相对 指标 无 法 区 分 不 同 的 模型 时 ， 后 验 预 测 检测 也 可 以 作为 选择 


模型 的 方法 。 例 如 ，Steingroever et al. (2014) 发 现在 爱 荷 华 赌博 实验 里 ，BIC 等 指标 很 难 区 


分 不 同 模型 ， 而 后 验 预测 检查 则 能 很 好 地 选择 出 最 优 模型 。 


ipe: 


例如 ，AIC 和 BIC 作为 最 常见 的 指标 ， 适 用 于 参数 估计 方法 为 点 估计 的 极 大 似 然 法 的 
模型 ， 然 而 如 何在 AIC、 和 BIC 之 间 进 行 选择 仍 有 争议 。 


BIC 的 第 如 项 惩罚 力度 更 大 ， 就 像 本 文中 的 案例 一 样 ， 它 们 通常 会 选择 简单 的 模型 。 


因此 ， 研 究 者 可 以 根据 自己 


研究 假设 的 效应 量 和 统计 功效 来 选择 这 些 指标 。 例 如 ，BIC 的 
一 类 错误 和 二 类 错误 都 会 随 着 样本 量 的 增 大 而 下 降 。 而 AIC 的 二 类 错误 会 随 着 样本 量 下 降 ， 


但 其 一 类 错误 并 不 会 。 并 且 AIC 的 二 类 错误 比 BIC 要 小 (Dziak et al, 2020)。 即 在 同等 样本 


条 件 下 ，AIC 能 确认 样本 外 预测 能 


力 更 好 的 模型 为 最 优 模型 ， 但 同时 也 冒 着 一 类 错误 更 大 


的 风险 。 而 BIC 虽然 有 着 确认 真实 模型 的 能 力 ， 但 是 其 二 类 错误 ， 即 选 出 一 个 表现 较 差 的 


模型 的 概率 也 更 高 。 
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Collins, 2019)。 例 如 ，Collins and Frank (2012) 使 用 更 复杂 的 模型 模 撮 


和 简单 模型 拟 合 该 数据 。 他 们 发 现 ， 当 使 用 BIC 


单 模型 ， 


用 模型 复 现 (Model recovery) 的 方法 来 决定 究竟 使 用 何 种 指标 也 是 


也 就 是 说 ，BIC 往往 过 于 惩 昼 复杂 的 模型 ， 导 致 无 法 复 现 日 


模型 ， 


除 此 之 外 ， 不 同 参数 估计 的 方法 也 会 限制 模型 比较 方法 的 使 有 


估计 的 模型 而 言 ， 我 们 可 以 利 


标 。 而 如 果 使 用 了 点 估计 的 最 大 化 后 验 概率 法 ， 我 们 也 可 以 使 用 拉 普 拉 
然 。 在 有 信息 的 先 验 分 布 时 ， 边 际 似 然 表现 会 优 于 WAC 等 对 交叉 验 订 


] MCMC FEATS 


一 种 选择 (Wilson & 
数据 ， 并 用 复杂 模型 

年 为 模型 比较 指标 时 ， 拟 合 结果 会 支持 简 
模拟 数据 背后 的 真实 


而 AIC 却 可 以 复 现 出 更 为 复杂 的 真实 模型 (Collins & Frank, 2018)。 最 后 ， 也 有 不 少 
研究 者 推荐 同时 汇报 AIC 和 BIC。 如 果 二 者 的 结果 一 致 ， 则 模型 比较 结果 也 更 为 可 靠 。 如 


果 二 者 相悖 ， 则 可 根据 不 同 的 原则 进行 分 门 别 类 的 讨论 (Farrell & Lewandowsky, 2018). 


H. 对 于 使 


D 


用 贝 叶 斯 参数 


边际 似 然 或 者 Loo-CV 等 更 精确 的 近似 指 


斯 近似 计算 边际 似 


的 近似 。Evans 


(2019) 使 用 LBA 模型 对 比 了 不 同 信息 程度 的 先 验 分 布 对 模型 比较 的 影响 ， 发 现 当 先 验 分 布 


是 无 信息 的 或 者 弱 信 息 的 时 ， 边 际 似 然 倾向 于 过 度 成 罚 复 杂 模 型 ， 


导致 结果 偏离 最 优选 择 ; 


而 当先 验 分 布 是 中 等 程度 的 信息 时 ， 边 际 似 然 的 结果 更 接近 于 最 优选 择 ， 并 且 要 优 于 


WAIC; 而 当先 验 分 布 是 强 信息 的 
当 我 们 对 模型 的 先 验 有 足够 的 认识 并 设置 有 信息 的 ? 


当 使 / 


WAIC，DIC 和 Loo-CV 是 更 恰当 的 指标 。 


6.3 模型 比较 的 新 发 展 


DCM(Dynamic causal modelling)! 


selection, RE-BMS)(Stephan et al., 2009) 8E 


泛 的 应 用 。RE-BMS F| 


随机 效应 的 贝 叶 


贝 叶 斯 分 层 模 型 来 考虑 被 试 的 差异 ， 使 
雷 分 布 以 避免 数据 点 非 对 称 分 布 形态 的 影响 。 此 外 ，RE-BMS 引入 超出 概率 (Protected 
exceedence probability, PXP)， 代 表 在 当前 样本 数据 下 ， 某 


CASH], XU 


时 ， 边 际 似 然 又 会 倾向 于 选择 复杂 度 过 高 的 模型 。 因 此 ， 


使 用 模型 比较 指标 的 常见 方式 是 比较 指标 值 在 所 有 被 试 上 的 和 或 者 3 
种 做 法 忽视 被 试 之 间 的 差异 ， 也 忽视 了 极端 值 对 模型 比较 的 产生 的 可 


际 似 然 可 能 是 更 好 的 选择 ， 
j 无 信息 先 验 ， 或 设置 有 信息 的 先 验 但 并 不 确定 其 是 否 恰当 时 ， 对 先 验 不 敏感 的 


E 


均值 的 。 然 而 这 


能 影响 。 源 于 


斯 模型 比较 (Random effect Bayseian model 
效 地 减少 极端 值 的 影响 ， 在 认 知 建 模 中 也 取得 广 
] 了 多 项 式 分 布 和 狄 利 元 


模型 并 可 以 作为 生产 当前 数据 的 “真实 模型 ”的 概率 ， 即 PXP = p(raz; 2 rmzj|y)。PXP 
大 于 0.95 就 可 以 像 传 统 的 假设 检验 一 样 认为 该 模型 要 显著 地 优 于 其 余 模 型 ([glesias et al., 


2013)。 值 得 注意 的 是 ，Matlab ! 


的 工具 包 SPM、VBA 和 R 中 的 bmsR 包 均 可 实现 PXP 的 
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713 ”计算 (Daunizeau et al., 2014)， 使 其 在 认 知 建 模 得 到 广泛 应 用 。 此 外 ， 当 我 们 使 用 AIC、BIC 


714 ”等 信息 准则 指标 作为 RE-BMS 的 输入 时 ， 需 将 这 些 指标 除 以 -2 来 保证 结果 的 正确 。 
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